QuantileDiscretizer用法

QuantileDiscretizer(分位數(shù)離散化)將一列連續(xù)型的數(shù)據(jù)列轉(zhuǎn)成分類型數(shù)據(jù)。通過取一個(gè)樣本的數(shù)據(jù),并將其分為大致相等的部分,設(shè)定范圍。其下限為 -Infinity(負(fù)無窮大) ,上限為+Infinity(正無窮大)。

通過設(shè)置numBuckets(桶數(shù)目)來所需離散的數(shù)目。但如果樣本數(shù)據(jù)只劃分了3個(gè)區(qū)間,此時(shí)設(shè)置numBuckets為4,則仍只劃分為3個(gè)區(qū)間。代碼如下:

object QuantileDiscretizerExample {
  def main(args: Array[String]) {
    val spark = SparkSession.builder().master("local[*]").appName("QuantileDiscretizerExample").getOrCreate()
    val sc = spark.sparkContext
    val sqlContext = spark.sqlContext
    import sqlContext.implicits._

    val data = Array((0, 18.0), (1, 19.0), (2, 8.0), (3, 5.0), (4, 2.2))
    val df = sc.parallelize(data).toDF("id", "hour")
    df.show()
    val discretizer = new QuantileDiscretizer()
      .setInputCol("hour")
      .setOutputCol("result")
      .setNumBuckets(3)

    val result = discretizer.fit(df).transform(df)
    result.show()

    sc.stop()
  }
}

其結(jié)果如下:


+---+----+------+
| id|hour|result|
+---+----+------+
|  0|18.0|   2.0|
|  1|19.0|   2.0|
|  2| 8.0|   1.0|
|  3| 5.0|   1.0|
|  4| 2.2|   0.0|
+---+----+------+
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容