閱讀 | 從《數(shù)學(xué)之美》中學(xué)習(xí)思維模型

吳軍博士所著《數(shù)學(xué)之美》是一本介紹“數(shù)學(xué)原理在自然語(yǔ)言處理中的應(yīng)用”的科普書(shū),它更多關(guān)注“道”,而非“術(shù)”或“器”,因此,盡管技術(shù)發(fā)展日新月異,文章中的思維方法仍能帶給我非常大的啟發(fā)。

現(xiàn)將啟發(fā)逐一整理出來(lái),稍后再做分類與提煉。(待刪)

1. 跨學(xué)科類比的能力

將「文字和語(yǔ)言」與「數(shù)字和信息」對(duì)應(yīng)起來(lái)的突破性思路,是近代自然語(yǔ)言處理技術(shù)得以突飛猛進(jìn)的源頭,把文字和語(yǔ)言所要傳遞的信息轉(zhuǎn)變成數(shù)字并傳遞出去,這是跨學(xué)科類比、縱橫聯(lián)系的強(qiáng)大思考武器。

2. 從知識(shí)的歷史源頭去理解其本質(zhì)

隨著文明發(fā)展,人類靠大腦已經(jīng)記不住所有事件,文字和數(shù)字就應(yīng)運(yùn)而生,作為高效記錄信息的工具。因此,文字和數(shù)字其實(shí)從本質(zhì)上看都是承載信息的介質(zhì)。

追溯某一事物的歷史,可以發(fā)現(xiàn)它在人類認(rèn)知中的典型樣貌,它本質(zhì) 比如數(shù)學(xué),是為了記錄物理測(cè)量而誕生的,它的許多重要發(fā)展是為了解決生活中的實(shí)際問(wèn)題。(數(shù)學(xué)有時(shí)超前于生活需要,鐘擺一般,有時(shí)會(huì)滯后)

3. 聚類會(huì)帶來(lái)歧義

不論在漢語(yǔ)還是古埃及語(yǔ)中,象形文字的數(shù)量增長(zhǎng)到 5000 個(gè)左右就不再繼續(xù)增加了,因?yàn)槿四X記不住那么多象形文字,但人類文明產(chǎn)生的新概念依舊在增加,于是多個(gè)概念聚類于同一符號(hào)(即字詞),文字表示哪個(gè)含義便需要借助上下文來(lái)理解了。歧義可以通過(guò)語(yǔ)境消解,我們?cè)谧鼍垲惖臅r(shí)候也要注意,提供消解歧義的手段。

4. 鑰匙:未知事物與已知事物的相同成分

猜測(cè)未知事物與已知事物相同的成分,從中可以找到規(guī)律,讓人借助規(guī)律理解未知事物的全部。

不同文明進(jìn)行交流時(shí),或許會(huì)用不同的文字記載同一件事,著就可能為我們破解無(wú)人能懂的語(yǔ)言提供一把鑰匙。電影中,圖靈破解德軍密碼好像就是通過(guò)德國(guó)空軍飛行員總是在電臺(tái)中問(wèn)候早安,因此就算每天都改換加密方案,還是能通過(guò)“早安”一詞來(lái)找到密碼的鑰匙。

5. 簡(jiǎn)潔才能夠長(zhǎng)久和廣泛

相比十進(jìn)制的 9x9 乘法表,瑪雅文明的二十進(jìn)制 19x19 乘法表太難記?了,瑪雅文字也非常復(fù)雜,每個(gè)部落都沒(méi)幾個(gè)人能掌握計(jì)數(shù)和文字的技能,這也許就是瑪雅文明發(fā)展極為緩慢的重要原因。選用什么樣的計(jì)數(shù)法,其實(shí)是數(shù)字編碼的問(wèn)題,一個(gè)編碼方法要兼顧簡(jiǎn)潔和普適性,實(shí)在是很難的。比如,Roman languages 所代表的西方拼音文字,能夠通過(guò)幾十個(gè)字母就表示語(yǔ)言中的全部字詞,即是一種歷史篩選出的簡(jiǎn)潔且普適的編碼方法。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容