Datawhale零基礎(chǔ)入門NLP賽事 - Task2 數(shù)據(jù)分析

任務(wù)目標(biāo)

通過pandas工具對數(shù)據(jù)進(jìn)行分析,找出數(shù)據(jù)的分布和一般規(guī)律。
主要考察三個(gè)問題:

  • 賽題數(shù)據(jù)中,新聞文本的長度是多少?
  • 賽題數(shù)據(jù)的類別分布是怎么樣的,哪些類別比較多?
  • 賽題數(shù)據(jù)中,字符分布是怎么樣的?

我們可以看出,所有新聞中,最短的新聞只有兩個(gè)單詞,最長的新聞?dòng)?7921個(gè)單詞,而平均長度有907個(gè)單詞左右


這里可以看出,前三類的新聞?wù)紦?jù)比較多的數(shù)量,而后幾種新聞數(shù)量較少,整體的數(shù)據(jù)不是很平衡。




在這里,我們統(tǒng)計(jì)一下單詞的頻數(shù)和分布,包括最大頻數(shù)的單詞,和最小頻數(shù)的單詞。

兩個(gè)問題:

  • 假設(shè)字符3750,字符900和字符648是句子的標(biāo)點(diǎn)符號(hào),請分析賽題每篇新聞平均由多少個(gè)句子構(gòu)成?
  • 統(tǒng)計(jì)每類新聞中出現(xiàn)次數(shù)對多的字符

問題1:


問題2:



?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容