任務(wù)目標(biāo)
通過pandas工具對數(shù)據(jù)進(jìn)行分析,找出數(shù)據(jù)的分布和一般規(guī)律。
主要考察三個(gè)問題:
- 賽題數(shù)據(jù)中,新聞文本的長度是多少?
- 賽題數(shù)據(jù)的類別分布是怎么樣的,哪些類別比較多?
- 賽題數(shù)據(jù)中,字符分布是怎么樣的?

我們可以看出,所有新聞中,最短的新聞只有兩個(gè)單詞,最長的新聞?dòng)?7921個(gè)單詞,而平均長度有907個(gè)單詞左右

這里可以看出,前三類的新聞?wù)紦?jù)比較多的數(shù)量,而后幾種新聞數(shù)量較少,整體的數(shù)據(jù)不是很平衡。



在這里,我們統(tǒng)計(jì)一下單詞的頻數(shù)和分布,包括最大頻數(shù)的單詞,和最小頻數(shù)的單詞。
兩個(gè)問題:
- 假設(shè)字符3750,字符900和字符648是句子的標(biāo)點(diǎn)符號(hào),請分析賽題每篇新聞平均由多少個(gè)句子構(gòu)成?
- 統(tǒng)計(jì)每類新聞中出現(xiàn)次數(shù)對多的字符
問題1:

問題2:

