色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

<center id="cbg2b"><tr id="cbg2b"><track id="cbg2b"></track></tr></center>

<bdo id="cbg2b"><optgroup id="cbg2b"><strike id="cbg2b"></strike></optgroup></bdo>

登錄注冊(cè)寫文章

利用傳統(tǒng)方法（N-gram，HMM等）、神經(jīng)網(wǎng)絡(luò)方法（CNN，LSTM等）和預(yù)訓(xùn)練方法（Bert等）的中文分詞任務(wù)實(shí)現(xiàn)

利用傳統(tǒng)方法（N-gram，HMM等）、神經(jīng)網(wǎng)絡(luò)方法（CNN，LSTM等）和預(yù)訓(xùn)練方法（Bert等）的中文分詞任務(wù)實(shí)現(xiàn)

自然語言處理中文分詞

利用傳統(tǒng)方法（N-gram，HMM等）、神經(jīng)網(wǎng)絡(luò)方法（CNN，LSTM等）和預(yù)訓(xùn)練方法（Bert等）的中文分詞任務(wù)實(shí)現(xiàn)【The word segmentation task is realized by using traditional methods (n-gram, HMM, etc.), neural network methods (CNN, LSTM, etc.) and pre training methods (Bert, etc.)】

項(xiàng)目地址：https://github.com/JackHCC/Chinese-Tokenization

方法概述

傳統(tǒng)算法：使用N-gram，HMM，最大熵，CRF等實(shí)現(xiàn)中文分詞
神經(jīng)?絡(luò)?法：CNN、Bi-LSTM、Transformer等
預(yù)訓(xùn)練語?模型?法：Bert等

數(shù)據(jù)集概述

PKU 與 MSR 是 SIGHAN 于 2005 年組織的中?分詞?賽所?的數(shù)據(jù)集，也是學(xué)術(shù)界測(cè)試分詞?具的標(biāo)準(zhǔn)數(shù)據(jù)集。

實(shí)驗(yàn)過程

傳統(tǒng)方法：
- Document
- Code
神經(jīng)網(wǎng)絡(luò)方法
- Document
- Code
預(yù)訓(xùn)練模型方法
- Document
- Code

實(shí)驗(yàn)結(jié)果

PKU數(shù)據(jù)集

模型	準(zhǔn)確率	召回率	F1分?jǐn)?shù)
Uni-Gram	0.8550	0.9342	0.8928
Uni-Gram+規(guī)則	0.9111	0.9496	0.9300
HMM	0.7936	0.8090	0.8012
CRF	0.9409	0.9396	0.9400
Bi-LSTM	0.9248	0.9236	0.9240
Bi-LSTM+CRF	0.9366	0.9354	0.9358
BERT	0.9712	0.9635	0.9673
BERT-CRF	0.9705	0.9619	0.9662
jieba	0.8559	0.7896	0.8214
pkuseg	0.9512	0.9224	0.9366
THULAC	0.9287	0.9295	0.9291

MSR數(shù)據(jù)集

模型	準(zhǔn)確率	召回率	F1分?jǐn)?shù)
Uni-Gram	0.9119	0.9633	0.9369
Uni-Gram+規(guī)則	0.9129	0.9634	0.9375
HMM	0.7786	0.8189	0.7983
CRF	0.9675	0.9676	0.9675
Bi-LSTM	0.9624	0.9625	0.9624
Bi-LSTM+CRF	0.9631	0.9632	0.9632
BERT	0.9841	0.9817	0.9829
BERT-CRF	0.9805	0.9787	0.9796
jieba	0.8204	0.8145	0.8174
pkuseg	0.8701	0.8894	0.8796
THULAC	0.8428	0.8880	0.8648

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

中文分詞原理及常用Python中文分詞庫介紹
轉(zhuǎn)自進(jìn)擊的Coder 公眾號(hào) 原理中文分詞，即 Chinese Word Segmentation，即將一個(gè)漢...
Epiphron閱讀 11,742評(píng)論 2贊 56
分詞方法筆記
一、關(guān)于分詞原則顆粒度越大越好：用于進(jìn)行語義分析的文本分詞，要求分詞結(jié)果的顆粒度越大，即單詞的字?jǐn)?shù)越多，所能表...
小白一枚ha閱讀 892評(píng)論 0贊 0

卷積神經(jīng)網(wǎng)絡(luò)CNN的文本分類原理和實(shí)戰(zhàn)
基于卷積神經(jīng)網(wǎng)絡(luò)CNN的文本分類原理和實(shí)戰(zhàn) 前言本文介紹了CNN在NLP中的應(yīng)用：文本分類。文本分類：是自然語...
Viterbi閱讀 8,872評(píng)論 0贊 4
NLP基礎(chǔ)知識(shí)和綜述
NLP基礎(chǔ)知識(shí) 1、數(shù)據(jù)結(jié)構(gòu)和算法一種流行的自然語言處理庫、自帶語料庫、具有分類，分詞等很多功能，國外使用者居多...
AI信仰者閱讀 1,570評(píng)論 0贊 0
中文語音識(shí)別后檢錯(cuò)糾錯(cuò)（二）：LSTM句子檢錯(cuò)糾錯(cuò)
在構(gòu)建了基于n-gram的糾錯(cuò)檢錯(cuò)模型之后，我們自然不能放過如今大紅大紫的神經(jīng)網(wǎng)絡(luò)，鑒于神經(jīng)網(wǎng)絡(luò)的靈活性和訓(xùn)練的耗...
Zedom閱讀 11,751評(píng)論 6贊 21

友情鏈接更多精彩內(nèi)容

贊1贊

贊賞

手機(jī)看全文

河北省| 和平区| 陆川县| 太仆寺旗| 冕宁县| 虞城县| 安义县| 元江| 泰兴市| 景谷| 公安县| 佛学| 运城市| 佳木斯市| 砚山县| 温宿县| 锡林浩特市| 哈巴河县| 阿拉善右旗| 旬邑县| 康乐县| 大荔县| 邵阳县| 云安县| 武宁县| 彩票| 溆浦县| 徐汇区| 镇雄县| 汪清县| 达州市| 虎林市| 封开县| 吉林市| 威海市| 滨州市| 电白县| 梁山县| 莱州市| 靖宇县| 清原|

<bdo id="idmqq"><optgroup id="idmqq"><cite id="idmqq"></cite></optgroup></bdo>