
文·blogchong
川普贏了!
今天全世界都在討論一個(gè)事,那就是美國大選。是的,川普贏了!
我也很意外,因?yàn)榍皫滋煳疫€看到的是這個(gè):

結(jié)局有點(diǎn)出乎意料,說好的預(yù)測(cè)希拉里成果率80%的呢?
那個(gè)網(wǎng)上做大選預(yù)測(cè)的那個(gè)家伙,還有畫這個(gè)好看蛇形預(yù)測(cè)圖的家伙,你給我站出來!我保證不打死你!

是的,美國那邊的數(shù)據(jù)同行們,被“啪啪”打臉了!
說好的“啤酒與尿布”呢?哦,對(duì)了,還有說好的“成功預(yù)測(cè)流感”呢?咋就不好使了。
莫非,是美國那邊的數(shù)據(jù)同行們,水準(zhǔn)下降了?!
好了,打住,不要偷偷得意了。
盆友圈里,有個(gè)數(shù)據(jù)同行盆友發(fā)了這樣一個(gè)狀態(tài):“美國大選出乎意料的核心在于數(shù)據(jù)的不完整性。我們以為全世界的人都在互聯(lián)網(wǎng)上,其實(shí)沒有在互聯(lián)網(wǎng)的人是多數(shù)。所以這個(gè)時(shí)候的大數(shù)據(jù)分析技術(shù)就是個(gè)偽命題,無法預(yù)測(cè)也是合理的?!?/p>
一語中的!
很多分析這次美國大選結(jié)果的盆友,很喜歡用的一個(gè)句話“農(nóng)村包圍城市”。
我們來看這張圖,相信已經(jīng)有不少盆友都看過:

從地圖上可以看出,支持希拉里的藍(lán)色部分,分布在西部沿海,以及東北部,當(dāng)然其中包括了我們耳熟能詳?shù)募~約,以及加州。這些地方人口相對(duì)比較密集,也是美國經(jīng)濟(jì)比較發(fā)達(dá)的地區(qū)。
就算在一個(gè)州里,只有相對(duì)發(fā)達(dá)的城市對(duì)希拉里的支持是比較徹底的,例如佛羅里達(dá)州:

所以,確實(shí)是印證了“農(nóng)村包圍城市”的說法。
那么,這個(gè)現(xiàn)狀對(duì)于之前我們說的數(shù)據(jù)預(yù)測(cè)有什么影響呢?
不可否認(rèn),互聯(lián)網(wǎng)在美國的普及率也算是足夠高了,但不得不承認(rèn)的一個(gè)事實(shí)是:互聯(lián)網(wǎng)上相對(duì)活躍的人群,肯定是經(jīng)濟(jì)能力相對(duì)較高,整體學(xué)識(shí)素質(zhì)相對(duì)比較高的群體。
從這點(diǎn)來說,基于互聯(lián)網(wǎng)的數(shù)據(jù)去做大選預(yù)測(cè),本身就存在數(shù)據(jù)樣本的不公平性。
也就印證了,盆友圈中的那句“其實(shí)很多人都不在互聯(lián)網(wǎng)上的”,那部分人群是沒有參與到預(yù)測(cè)中的。
還有一個(gè)比較重要的點(diǎn)就是:關(guān)鍵意見領(lǐng)袖(KOL)再加上社交媒體的影響力,使得數(shù)據(jù)預(yù)測(cè)進(jìn)一步偏離了正確的方向。
我們都知道,現(xiàn)任美國總統(tǒng)奧巴馬公開為希拉里拉選票,而蘋果、Google、臉書等互聯(lián)網(wǎng)領(lǐng)袖也都公開支持希拉里,當(dāng)然還包括很多體育、娛樂明星等為希拉里站臺(tái)。
這些人在互聯(lián)網(wǎng)的公開影響力是不可忽視的,再結(jié)合社交網(wǎng)絡(luò)的病毒式擴(kuò)散,以“精英”階層為主體的互聯(lián)網(wǎng),于是就這樣被偏向了希拉里。
且不論國外,就算在國內(nèi)。
就以微信熱點(diǎn)傳播為例,一些微信大號(hào)發(fā)表的一些對(duì)時(shí)事熱點(diǎn)的看法,是很容易大面積覆蓋朋友圈的,而作為吃瓜群眾的我們也很容易受到這種意見領(lǐng)袖的影響(不受影響,你會(huì)轉(zhuǎn)發(fā)嗎)。
而今天雖然智能手機(jī)的普及率已經(jīng)算是比較廣了,但是作為經(jīng)常吃瓜群眾的我們,其實(shí)也算是“精英人士”了,我們是無法想象三四線城市的情況的,更何況那些農(nóng)村地帶呢?
你朋友圈中經(jīng)常傳播的熱點(diǎn),你那些依然拿著諾基亞的七大姑、八大姨聽過嗎?
你造中國農(nóng)村人口有多少嗎?
所以,基于互聯(lián)網(wǎng)數(shù)據(jù)的選舉預(yù)測(cè),不可避免的使用了本身成分就不全面的基礎(chǔ)數(shù)據(jù),哪怕美國同行們用"看似"再精準(zhǔn),再智能的預(yù)測(cè)算法,結(jié)果一樣是錯(cuò)的。
這里又回歸到了我們的原始話題,并不是說預(yù)測(cè)的過程或者說算法存在問題,而是數(shù)據(jù)源存在問題。
這里告訴我們,作為大數(shù)據(jù)領(lǐng)域里開挖掘機(jī)的我們,在苦練開挖掘機(jī)技術(shù)的時(shí)候,不要忽視了前期數(shù)據(jù)收集,以及數(shù)據(jù)預(yù)處理的重要性。
很多時(shí)候,數(shù)據(jù)源的選取,以及數(shù)據(jù)的預(yù)處理過程,將會(huì)對(duì)你的后續(xù)挖掘結(jié)果產(chǎn)生巨大的影響,包括我們經(jīng)常說的推薦。
當(dāng)然,包括對(duì)數(shù)據(jù)源要求更嚴(yán)格的預(yù)測(cè)模型等。
最后,作為數(shù)據(jù)領(lǐng)域的我們,要正確的看待這一次的美國大選數(shù)據(jù)預(yù)測(cè)事件,一方面要嚴(yán)謹(jǐn)對(duì)待數(shù)據(jù)選擇的問題,另一方面也不要就因此而否定數(shù)據(jù)挖掘的價(jià)值!
(全文完)