數(shù)據(jù)預(yù)處理部分和上一篇一樣,就不啰嗦了。重點看一下模型構(gòu)造:1. Attention層:核心在于對encoder端隱層權(quán)重進行計算 比如我們準備生成“machine”這個詞:...
1.加載數(shù)據(jù) 2.查看數(shù)據(jù) 3.數(shù)據(jù)預(yù)處理 3.1 構(gòu)造字典 3.2 增加特殊字符 3.3 word和id之間的映射表 3.4 text 轉(zhuǎn)換成 int 4. 構(gòu)建模型 和上...
決策樹 純度和信息熵:決策樹構(gòu)造的過程就是為尋找純凈劃分的過程,數(shù)學(xué)上的解釋,就是讓目標變量分歧最小。比如有3個集合:集合1有6次去打球;集合2有5次去打球,1次不去;集合3...
tf.nn.embedding_lookup的作用就是找到要尋找的embedding data中的對應(yīng)的行下的vector。 +CRF 用F1值來評估 關(guān)于調(diào)參: Valid...
對于序列標注來講,普通CNN有一個劣勢,就是卷積之后,末層神經(jīng)元可能只是得到了原始輸入數(shù)據(jù)中一小塊的信息。而對NER來講,整個句子的每個字都有可能都會對當(dāng)前需要標注的字做出影...
用的是kaggle上的比賽“Quora Question Paris: Can you identify question pairs that have the same ...
兩個句子從一開始就交互,這樣就會獲得更準確的關(guān)系。圖中可以將單詞與單詞之間的相似度看成是像素,那么對于兩個單詞數(shù)為M,N的句子,其相似度矩陣就是M*N,然后!就可以用卷積搞事...
先看看seq2seq原理: encoder通過學(xué)習(xí)將輸入embedding后傳入rnn網(wǎng)絡(luò)形成一個固定大小的狀態(tài)向量S,并將S傳給Decoder, Decoder一樣通過學(xué)習(xí)...
比較:其 [aˉi,βi][aˉi,βi] 就是把兩部分concat起來(句子中第 i 個詞, 和另一個句子里所有詞與它比較的加權(quán)詞向量) image.png 總計aggre...
先談一下敏感話題:為什么都說程序員是青春飯,為什么搞程序到了35歲都會人人自危?如果你有HR獵頭的朋友,咨詢一下他們,會發(fā)現(xiàn)現(xiàn)階段市場對十年以上的程序員(基本上都35歲+)需...
機器學(xué)習(xí)分三類: 監(jiān)督學(xué)習(xí):Given D={x,y}, learn y=f(x) 當(dāng)y為離散值時為分類問題,當(dāng)y為連續(xù)值時為回歸問題。常用于語音識別,搜索廣告,商品推薦,機...
先看上圖就知道LSTM和CRF具體產(chǎn)出什么。LSTM+softmax分類后只能把特征的上下文關(guān)系學(xué)出來,CRF可以把label的上下文學(xué)出來。 比如通過上下文特征,BiLST...
本文以命名實體識別NER數(shù)據(jù)預(yù)處理為例 將訓(xùn)練集中每句話變成4個list: 第一個list是字,如[今,天,去,北,京] 第二個list是char_to_id [3,5,6,...
Word Embedding 之深度學(xué)習(xí) RNN: RNN引入了隱狀態(tài)h(hidden state)的概念,h1接收到前一個隱狀態(tài)h0和當(dāng)前輸入x1,結(jié)合權(quán)重和bias,輸出...