互聯(lián)網(wǎng)梯隊(duì)理解 正如李彥宏形容2019年是冰與火之歌。整體經(jīng)濟(jì)提速換擋的壓力下,即便是一路高歌猛進(jìn)的互聯(lián)網(wǎng)行業(yè)和企業(yè)也開始變得謹(jǐn)慎。有的公司調(diào)整事業(yè)架構(gòu),有的公司調(diào)整高管薪酬...
《我們與惡的距離》不僅中文名引人深思,它的英文翻譯也留下諸多解讀空間。the word between us 可以理解為群體與群體的隔閡。這個(gè)隔閡可能只是一小段距離, ...
最近做計(jì)算社會(huì)學(xué)的研究需要用到網(wǎng)絡(luò)爬蟲爬取一些數(shù)據(jù),一開始打算用八爪魚爬蟲工具,后來發(fā)現(xiàn)這種爬蟲工具不太穩(wěn)定,那就自己從頭學(xué)吧,以后說不定也能用的著,試著模仿了幾個(gè)案例,其實(shí)...
可視化認(rèn)識(shí)論整理 一、初級(jí)-《連環(huán)15關(guān),玩轉(zhuǎn)數(shù)據(jù)可視化》 無論數(shù)據(jù)總量和復(fù)雜程度如何,數(shù)據(jù)間的關(guān)系大多可分為三類:比較 / 構(gòu)成 / 分布&聯(lián)系。 一、比較類常用圖形總結(jié) ...
2018中國媒體市場(chǎng)發(fā)展趨勢(shì)行研 作者:pre-learner NJU碩士搬磚中 中國擁有世界上競(jìng)爭(zhēng)最激烈的媒體市場(chǎng)。現(xiàn)存出版社585家,期刊10130種,公共廣播節(jié)目2...
這也是一個(gè)經(jīng)典的描述性統(tǒng)計(jì)與建模的小案例了,主要用到pandas進(jìn)行數(shù)據(jù)處理,用statsmodels進(jìn)行統(tǒng)計(jì)建模。 數(shù)據(jù)來源: 紅葡萄酒(http://archive.ic...
本文從深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)入手,基于 Github 的開源項(xiàng)目來完成 MovieLens 數(shù)據(jù)集的電影推薦系統(tǒng)。 什么是推薦系統(tǒng)呢? 什么是推薦系統(tǒng)呢?首先我們來看看幾個(gè)常見...
最近朋友面試有被問到文本聚類問題,總結(jié)如下: 聚類分析,又稱群分析,它是研究(樣品或指標(biāo))分類問題的一種統(tǒng)計(jì)分析方法,以相似性為基礎(chǔ),在一個(gè)聚類中的模式之間比不在同一聚類中的...
背景介紹 由于項(xiàng)目需要,需要對(duì)旅游游記文本進(jìn)行聚類,為打標(biāo)簽做指導(dǎo),所以調(diào)研了主流的短文本聚類方法,文本聚類主要還是分成兩個(gè)方面。 1. 提取文本特征 在《數(shù)學(xué)之美》前幾章中...
Terminology word2vec: doc2vec embedding: User profile R: 瀏覽過的文章數(shù)量 rh:doc2vec embedding ...
目標(biāo) 從頭開始實(shí)踐中文短文本分類,記錄一下實(shí)驗(yàn)流程與遇到的坑 運(yùn)用多種機(jī)器學(xué)習(xí)(深度學(xué)習(xí) + 傳統(tǒng)機(jī)器學(xué)習(xí))方法比較短文本分類處理過程與結(jié)果差別 工具 深度學(xué)習(xí):keras ...
第一部分:論文 最近讀了一遍Doc2Vec原文,整篇文章思路清晰明了,建議在讀博客之前先看一遍文章,因?yàn)槲恼轮袑⒏鱾€(gè)部分講的很詳細(xì)。 這里只記錄文章中最最重要的一段話: At...