語料準備

之前查找了很多資料,發(fā)現語料準備這塊的方法論很有限,在我看來如果說AI是個學生,語料其實是教科書,是知識的海洋,是AI的糧食,非常重要。
本文主要探討有充分的語料基礎后對語料進行預處理的辦法。
1,眾包打標簽
2,手工規(guī)則提取
關鍵詞特征,使用數據庫進行批量標記。
實體識別后特征選取,使用分詞工具根據詞性來標記。
詞頻統計,對高頻特殊詞單獨標記。
### Dialogflow 邊標記邊訓練,不斷校正測試效果。
Explosion.ai 的 Prodigy , 快速手工標記,后臺學習,提供預判,個人覺得并不好用。
3, 專家手工打標簽
推薦Excel,可以與數據庫互傳數據,可以指定標簽詞匯范圍,進行快速輸入。
我總覺得語料工具應該有更大的發(fā)展空間,需要做的更好!

?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 之前聽好多大咖提到過,利用零碎時間在得到上聽書。 今天早上不知是什么力量驅使自己打開了得到的APP,聽本書吧。 今...
    花兒的書房閱讀 292評論 0 0
  • 很多地方都進去了深冬,寒冷的冬季,裹上厚厚的像被子一樣的棉襖 哈哈,因為我在廣州,廣州的天氣才剛剛進去深秋,初冬,...
    易槿槿閱讀 163評論 -1 0

友情鏈接更多精彩內容