中文NLP筆記:4. 文本數(shù)據(jù)可視化 的幾個方法

文本數(shù)據(jù)可視化 有下面三種

1. 基于文本內(nèi)容的可視化

? 基于詞頻的可視化和基于詞匯分布的可視化

? 常用的有詞云、分布圖和 Document Cards

2. 基于文本關(guān)系的可視化

? 研究文本內(nèi)外關(guān)系,幫助人們理解文本內(nèi)容和發(fā)現(xiàn)規(guī)律

? 常用的可視化形式有樹狀圖、節(jié)點連接的網(wǎng)絡(luò)圖、力導(dǎo)向圖、疊式圖和 Word Tree 等

3. 基于多層面信息的可視化

? 研究如何結(jié)合信息的多個方面,幫助用戶更深層次理解文本

? 常用的有地理熱力圖、ThemeRiver、SparkClouds、TextFlow 和基于矩陣視圖的情感分析可視化等



代碼舉例

? 1. 詞云

? wordcloud=WordCloud(font_path=simhei,background_color="white",max_font_size=80)

? 2. 關(guān)系圖

? 用連線圖來表示事物相互關(guān)系的一種方法。

? 安裝 Matplotlib、NetworkX

? ? DG = nx.DiGraph()

DG.add_nodes_from(nodes)

DG.add_edges_from(weights

nx.draw(DG,with_labels=True, node_size=1000, node_color = colors)

? 3. 地理熱力圖

? 通過分詞得到城市名稱后,將地理名詞通過轉(zhuǎn)換成經(jīng)緯度

? 使用 Folium 庫進行熱力圖繪制地圖

? ? map_osm = folium.Map(location=[35,110],zoom_start=5)?

HeatMap(data1).add_to(map_osm)?


學(xué)習(xí)資料:

《中文自然語言處理入門實戰(zhàn)》

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容