6篇文章 · 13563字 · 7人關(guān)注
文本相似性的應(yīng)用場(chǎng)景會(huì)有很多,在工業(yè)界我粗略遇到過: 熱點(diǎn)做輿情識(shí)別監(jiān)控的時(shí)候,需要對(duì)全網(wǎng)文章進(jìn)行聚合,聚合過程中需要知道哪些文章是一致的 推薦...
前言 最近很長時(shí)間沒有和大家分享東西了,最近一直在忙公司的項(xiàng)目,先說一聲抱歉。 之前寫過銷售預(yù)估算法,但是被諸多大佬吐槽有監(jiān)督學(xué)習(xí)部分毫無深度,...
17/12/30-update :很多朋友私密我想要代碼,甚至利用金錢誘惑我,好吧,我淪陷了。因?yàn)樵即a涉及到公司的特征工程及一些利益tric...
檢測(cè)異常值一定程度上也可以叫做離群點(diǎn)識(shí)別,常規(guī)有以下幾種識(shí)別方法: 1.統(tǒng)計(jì)檢驗(yàn)(假設(shè)檢驗(yàn)) 舉個(gè)例子:以下一組用戶用車月花費(fèi):100,110,...
我推薦一種之前在惠普做過一種排序方法:威爾遜區(qū)間法 我們先做如下設(shè)定: (1)每個(gè)用戶的打分都是獨(dú)立事件。 (2)用戶只有兩個(gè)選擇,要么投喜歡'...
個(gè)人不建議填充缺失值,建議設(shè)置啞變量或者剔除該變量,填充成本較高 常見填充缺失值的方法: 1.均值、眾數(shù)填充,填充結(jié)果粗糙對(duì)模型訓(xùn)練甚至有負(fù)面影...