機(jī)器學(xué)習(xí)之CreateML使用(二)

上篇文章, 我們介紹了 CreateML 制作圖片分類模型, 在這篇文章里我們研究一下自然語言處理中的文本分類, 以及回歸分析.

機(jī)器學(xué)習(xí)的一般步驟:

準(zhǔn)備數(shù)據(jù)(數(shù)據(jù)預(yù)處理) -> 編寫分類器算法 -> 訓(xùn)練模型 -> 評(píng)估模型表現(xiàn) -> 保存模型 -> 使用模型

文本分類

CreateML 對(duì)于文本分類是沒有專門的UI的, 但是我們可以自己寫UI, 這里先直接展示文本分類的純代碼實(shí)現(xiàn).
此次我們使用的數(shù)據(jù)集是這個(gè), 我們要做的是一個(gè)垃圾郵件檢測(cè)器模型, 通過識(shí)別文本內(nèi)容, 來判斷該內(nèi)容是 spam(垃圾郵件) 還是 ham(火腿).

import CreateML
import Foundation
import NaturalLanguage

// 路徑不要有中文, 否則可能無法讀取成功.
let srcDir = URL(fileURLWithPath: "/Users/xx/Downloads/")
let data = try MLDataTable(contentsOf: srcDir.appendingPathComponent("spam.json"))
// 隨機(jī)分割數(shù)據(jù)
let (trainData, testData) = data.randomSplit(by: 0.8, seed: 5)

let params = MLTextClassifier.ModelParameters(validationData: nil, algorithm: .maxEnt(revision: 1), language: .English)


// 創(chuàng)建Model, 并開始訓(xùn)練
let textClassifier = try MLTextClassifier(trainingData: trainData,
                                            textColumn: "text",
                                            labelColumn: "label",
                                            parameters: params
                                        )


// 打印結(jié)果
let trainAccuracy = (1 - textClassifier.trainingMetrics.classificationError) * 100
let validateAccuracy = (1 - textClassifier.validationMetrics.classificationError) * 100

print("trainAccuracy: \(trainAccuracy), validateAccuracy: \(validateAccuracy)")

// 測(cè)試數(shù)據(jù)
let evaluationMetrics = textClassifier.evaluation(on: testData)
let evaluationAccuracy = (1 - evaluationMetrics.classificationError) * 100

print("evaluationAccuracy: \(evaluationAccuracy)")

// 保存模型
let metadata = MLModelMetadata(author: "LC", shortDescription: "text classifier", license: nil, version: "1.0", additional: nil)
try textClassifier.write(to: srcDir.appendingPathComponent("TextClassifier.mlmodel"),
                         metadata: metadata)

使用模型

image.png

通過觀察這個(gè)模型的一些參數(shù), 發(fā)現(xiàn)評(píng)測(cè)模型需要一個(gè) String 的輸入?yún)?shù), 指的是文本內(nèi)容, 模型會(huì)輸出一個(gè) String類型的 label, 指的是 spam 或者 ham.

let model = TextClassifier()
    
guard let result = try? model.prediction(text: "I love you") else {
    fatalError("Prediction failed!")
}
print("輸出:", result.label)  // ham 

代碼里有詳細(xì)的注釋, 這里不再做贅述.
有幾點(diǎn)比較我在意

  • 訓(xùn)練數(shù)據(jù)不再是依靠文件夾的名字為 label (圖片分類是這樣), 而是將所有數(shù)據(jù)以字典的形式寫在同一個(gè)文件中, 這意味, 如果我們手頭上有10000份電影評(píng)論的數(shù)據(jù), 需要做情緒分析的話, 我們需要做數(shù)據(jù)預(yù)處理, 將所有數(shù)據(jù)寫在同一個(gè)文件中再來讀取.
  • 創(chuàng)建模型里面的參數(shù), 目前模型的基礎(chǔ)算法有 maxEntcrf 兩種, 對(duì)于文本的處理有一個(gè) NLLanguage, 屬于 NaturalLanguage 框架.

表格分類(回歸分析)

此次使用的數(shù)據(jù)集是這個(gè), ;我們要做的是一個(gè)預(yù)測(cè)房?jī)r(jià)的模型.
表格里面涉及到四個(gè)參數(shù),

  • RM(每個(gè)住宅的平均房間數(shù))
  • LSTAT: 人口中被認(rèn)為地位較低的百分比
  • PTRATIO: 城鎮(zhèn)學(xué)生與學(xué)生的比率
  • MEDV: 自住房屋價(jià)格的中位數(shù)

我們通過這3個(gè)特性(RM, LSTAT, PTRATIO)來計(jì)算最終的價(jià)格(MEDV)

import CreateML
import Foundation

let srcDir = URL(fileURLWithPath: "/Users/xx/Downloads/")
let data = try MLDataTable(contentsOf: srcDir.appendingPathComponent("HouseData.csv"))
// 隨機(jī)分割數(shù)據(jù)
let (trainData, testData) = data.randomSplit(by: 0.8, seed: 0)

// 創(chuàng)建Model, 并開始訓(xùn)練
let priceModel = try MLRegressor(trainingData: trainData,
                             targetColumn:  "MEDV")


// 保存模型
let metadata = MLModelMetadata(author: "LC", shortDescription: "通過房子的特征預(yù)測(cè)價(jià)格", license: nil, version: "1.0", additional: nil)
try priceModel.write(to: srcDir.appendingPathComponent("HousePricer.mlmodel"),
                         metadata: metadata)
  • 使用模型


    image.png

通過觀察這個(gè)模型的一些參數(shù), 發(fā)現(xiàn)評(píng)測(cè)模型需要三個(gè) Double 的輸入?yún)?shù), 指的是房屋房間數(shù), 低位較低的占比, 城鎮(zhèn)學(xué)生占比, 模型會(huì)輸出一個(gè) Double 類型的 值, 指的是 房屋價(jià)格.

let model = HousePricer()
    
// RM(每個(gè)住宅的平均房間數(shù))
// LSTAT: 人口中被認(rèn)為地位較低的百分比
// PTRATIO: 城鎮(zhèn)學(xué)生與學(xué)生的比率
guard let result = try? model.prediction(RM: 5, LSTAT: 5, PTRATIO: 5) else {
    fatalError("Prediction failed!")
}
print("房屋價(jià)格:", result.MEDV) // 407177.23193359375

總結(jié)

  • 到目前為止, CreateML 能做的只有三類, 圖片分類, 自然語言處理, 回歸分析
  • 而且只能依靠Mac本身來計(jì)算, 算力無法進(jìn)一步提升, 意味著做出來的模型還遠(yuǎn)遠(yuǎn)達(dá)不到工業(yè)級(jí)的標(biāo)準(zhǔn).
  • 除了 CreateML, 還有 TuriCreate, TFiwS 都可以應(yīng)用在ML領(lǐng)域, 后面會(huì)繼續(xù)補(bǔ)充.

參考
Apple官網(wǎng)- Machine Learning
WWDC2018之Create ML(二)
Create ML : 如何在Xcode 10中訓(xùn)練您自己的機(jī)器學(xué)習(xí)模型

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容