R的介紹 R是用于統(tǒng)計分析、繪圖的語言和操作環(huán)境,是一個自由、免費、源代碼開放的軟件,是一個用于統(tǒng)計計算和統(tǒng)計制圖的優(yōu)秀工具。 其功能包括:數(shù)據(jù)...
OpenRefine是一個桌面應(yīng)用程序,原名叫Googlerefine,現(xiàn)在已經(jīng)由網(wǎng)絡(luò)社區(qū)接管并完全開源,任何人都可以免費下載使用。openre...
我們在之前的教程里講到了如何在openrefine中整理美國大選總統(tǒng)辯論文本,經(jīng)過整理后的文本就可以在R中使用,用來進行文本分析,這個教程跟大家...
昨天的教程里面我們學(xué)習(xí)了如何提取雙語翻譯文本[http://www.itdecent.cn/p/d6c58b41ab8c],那么如果我有兩篇文...
今天在朋友圈中看到友人轉(zhuǎn)發(fā)的中英文雙語演講文本,如下圖。突發(fā)奇想,如果有小伙伴只需要英文或中文的文本怎么辦呢?難道要一行一行的復(fù)制粘貼嗎?答案是...
我們在工作中經(jīng)常能碰到表格存儲在pdf文檔里的情況,要編輯文檔就需要將表格提取出來,通過tabula軟件提取表格然后使用openrefine來將...
我們在處理Excel文件中經(jīng)常能見到下面的文檔結(jié)構(gòu),通常在前面部分包括一些信息,下面是表格的形式 當有很多這樣的表格,在數(shù)據(jù)分析中需要用到表格上...
一、openrefine數(shù)據(jù)整理 一、數(shù)據(jù)整理(openrefine) 我們選取的素材是從網(wǎng)站上存儲的辯論轉(zhuǎn)錄素材,文本格式如下圖,標注了發(fā)言人...
Openrefine正則表達式基礎(chǔ) 正則表達式在涉及到文本數(shù)據(jù)的整理方面極其重要,它實際上就是一種字符串的模式,運用正則可以在文本中匹配出符合模...