那幾日廣邈互聯(lián)星空遨游,偶遇一位道者,名曰Python。
有詩贊曰:Python乃是昆侖客,石橋南畔有舊宅。修行得道混元初,才了長生知順逆。休夸爐內(nèi)紫金丹,須知火里焚玉液??缜帑[,騎白鶴,不去蟠桃飧壽藥,不去玄都拜老君,不去玉虛門上諾。三山五岳任遨游,海島蓬萊隨意樂。人人稱為仙癖,腹內(nèi)盈虛自有情。
話說Python,是目前自由度最高的高級(jí)編程語言,頗像《封神演義》中的陸壓道人。
自14年移動(dòng)設(shè)備流量第一次大過于PC流量后,世界變了。信息過載困擾著每一個(gè)人。因此,能否甄別有用的數(shù)據(jù),能否從亂如牛毛的RAW DATA中提煉出自己需要的信息,成為當(dāng)下最為重要的能力,沒有之一。
而Python,就是構(gòu)建這個(gè)能力的基石。
為何?
因?yàn)榻裉熹佁焐w地而來的大數(shù)據(jù),絕大部分都是非結(jié)構(gòu)化數(shù)據(jù),而非結(jié)構(gòu)化數(shù)據(jù),是無法有效的歸類到我們自己的數(shù)據(jù)庫中,為我們吸收消化所使用的。
非結(jié)構(gòu)化數(shù)據(jù)就好像是礦山,而結(jié)構(gòu)化數(shù)據(jù)則是鉆石,Python,就是一個(gè)高度智能化的挖掘機(jī),能夠幫助我們從礦山中挖出鉆石。
舉個(gè)栗子:
一、最淺顯的一步,過去,我們翻頁從新聞網(wǎng)站上抓取新聞列表,或者通過RSS訂閱不同平臺(tái)上的新聞,而用Python,則一段代碼,直接把自己想要的平臺(tái)上的新聞標(biāo)題全部抓出來。比如新浪新聞。

二、更深入一步,從某個(gè)指定的網(wǎng)頁上抓取需要的數(shù)據(jù),如指定內(nèi)文信息,文章標(biāo)題,編輯時(shí)間,編者等信息。

三:批量抓取指定的內(nèi)容后導(dǎo)出為EXCEL,這一步能夠把自己所在行業(yè)的優(yōu)質(zhì)內(nèi)容網(wǎng)頁以CSV,XLSX等方便自己的數(shù)據(jù)倉庫所存儲(chǔ)的方式。
