一下!
......
如果你已經(jīng)看到這里,恭喜,就在此時此刻,你的大腦正在完成一項的壯舉:閱讀。
你會覺得很奇怪,閱讀是一件多么平常的事情啊,怎么會說是壯舉呢?
1.拷問上帝
迄今為止,人類發(fā)現(xiàn)最早的文字系統(tǒng)是美索不達米亞的蘇美爾人發(fā)明的(象形文字),距今已有6000多年。而拼音文字發(fā)明的時間更短,只有3800年。
(圖片來源:《全球科技通史》吳軍)
▲上圖示意了一些詞的演化過程。第二列是最初的象形文字,從它們的形狀可以猜出其含義。經(jīng)過大約1000多年的簡化,形成了更抽象的早期楔形文字(第三列)。又經(jīng)過大約1000年,楔形文字完全形成,成了一種拼音文字(第四列)。
但你應(yīng)該知道,現(xiàn)代人類祖先大約是在1100萬—900萬年前從非洲古猿分化而來。從人類千萬年的進化時間來看,文字形成的短短幾千年就顯得特別微不足道。
(圖片來源:《人類進化簡史》伯納德·伍德)
這就引發(fā)了一個極重要的問題:人腦為什么具備閱讀的能力?
如果人類大腦中預(yù)先被安裝了閱讀程序,那為什么與我們有相同祖先的黑猩猩卻無法識文斷字?
如果人類的閱讀能力是自然選擇的結(jié)果,了解一點進化論的人都該知道,幾千年對于進化來說時間太短了,人類沒有充足的時間形成專門的閱讀神經(jīng)回路。
那我們到底是如何識文斷字的呢?
不用去拷問上帝,上帝就算知道也不會告訴你。我們先從眼睛說起。
2.眼睛不是照相機
我們知道,在沒有閃光燈的幫助下照相機在黑暗中是無法拍到物體的,人類的眼睛在閱讀文字時也是一樣,只有在文字反射的光子撞擊視網(wǎng)膜時,才能看到文字。
但與照相機的感光元件不同的是,人的視網(wǎng)膜不是一個均質(zhì)感受器。
很多人會有一種錯覺,認(rèn)為自己在閱讀時是以一種固定的精確度看到整個文字內(nèi)容,就好像數(shù)碼相機以均勻的像素陣列拍下照片一樣。
但我們的眼睛與照相機不一樣,研究表明,人眼只對正落在注視中心的點有最精細的感知,而周圍則越來越模糊(如下圖)。
我們視網(wǎng)膜的中央地帶有一個區(qū)域叫中央凹(Foveal),這才是視網(wǎng)膜中唯一擁有密集的、對光線高度敏感的、高分辨率的視覺細胞區(qū)域,而其他區(qū)域只具有較低的分辨率① 。
(圖片來源:維基百科https://en.wikipedia.org/wiki/Foveal)
也正是因為我們需要將文字放在視網(wǎng)膜的中央凹來進行閱讀,在閱讀時人的眼球需要不斷地移動。
但是,人的目光又不是勻速不停地在書頁上移動的,正相反,目光總是一小步一小步地移動,就像你現(xiàn)在閱讀這段文字時一樣,你的眼睛正在做著每秒4-5次的跳動,不斷把信息帶入你的中央凹,我們把眼睛這一特性稱之為眼跳(Saccade)②。
比如我們在讀一行文字的時候,眼睛從左至右依次進行跳動,來保證每個文字進入視網(wǎng)膜的中央凹,這樣使得視覺神經(jīng)可以將看到的文字傳輸?shù)酱竽X皮層。
另外要記住一點,一切生理構(gòu)造都有極限,我們的眼球也不例外。每秒4-5次的眼跳會大大限制我們閱讀的速度,研究發(fā)現(xiàn),我們每一次眼跳只能識別10-12個字母(表音文字),注視點左側(cè)3-4個,右側(cè)7-8個。即使優(yōu)秀的閱讀者,每分鐘最多也只能閱讀400-500個詞。
讀到這,聰明的你一定會反問我,如果保持眼睛不動,讓每個字自動地出現(xiàn)在眼睛的注視中心,這樣我們是不是就不用進行眼跳運動了?這樣我們的閱讀速度是不是可以突破極限?
問得好,科學(xué)家也發(fā)現(xiàn)了這個問題。有一種方法叫快速序列視覺呈現(xiàn)法(RSVP),通過這個方法的訓(xùn)練可以讓人的閱讀速度的3-4倍,也就是1600個詞每分鐘③。具體的方法也很簡單:就是將文本中內(nèi)容一個詞一個詞的呈現(xiàn),讓每個詞都精準(zhǔn)地落在注視點上,這就意味著我們不需要眼動。
(Google play上有個叫GlanceReader的APP,就是利用RSVP方法提高幫助讀者提高閱讀速度的。)
3.人眼到底精準(zhǔn)到什么程度?
弄明白了眼睛如何捕捉文字,現(xiàn)在我們在進一步深挖一層。
我們一定都在中國鐵路12306的網(wǎng)站上搶過火車票,那網(wǎng)站上的驗證體驗一定讓你感到心力交瘁。這一Part我們就從驗證碼說起。
每個人都有這樣的體驗:注冊或者登錄某個應(yīng)用或網(wǎng)站的時候,系統(tǒng)經(jīng)常會讓你識別驗證碼來判斷你是否真的是個“人”。這些驗證碼大部分是由一串歪歪扭扭的字符組成的,并不容易辨別。
驗證碼的英文名是** CAPTCHA,這是個縮寫,全稱是:Completely Automated Public Turing test to tell Computers and Humans Apart,有點長,翻譯過來的意思是:全自動區(qū)分計算機和人類的公開圖靈測試**。這項技術(shù)出現(xiàn)在十八年前,目的是為了防止機器(程序)假扮成人,去占用原本為用戶準(zhǔn)備的資源④。比如,利用Python爬蟲不斷地模擬嘗試登錄以便破解賬號密碼,或者利用惡意代碼在 BBS 中發(fā)布大量廣告或詐騙內(nèi)容。
這個技術(shù)看上去很簡單,但卻可以非常有效地識別人和機器,為什么呢?計算機科學(xué)發(fā)展至今已經(jīng)相當(dāng)成熟完備,為什么不能像人一樣識別這幾個簡單的字母呢?
這就不得不說說人類視覺的恒常性(Constancy)特征。
來看下面這張圖:
發(fā)現(xiàn)了沒有?
第一,無論字符大小如何,我們總能快速識別出;
第二,無論字符形態(tài)如何,我們也能識別出文字;
第三,無論字符在圖片上的位置如何,我們亦能識別。
這就是視覺的恒常性,我們的視覺系統(tǒng)對字符的大小、形態(tài)和位置變化有很強的耐受性。但計算機卻不能如此準(zhǔn)確的識別圖片中的字符,就比如上文中舉例的驗證碼,計算機是把圖片解析成極小的像素,通過二進制運算重新組合然后與編碼庫做比對從而判斷字符。這種算法的誤差極大,就算現(xiàn)今如日中天的人工智能也極大依賴對比庫的數(shù)據(jù)量。而最關(guān)鍵的是,隨著庫中數(shù)據(jù)的增長,這種匹配所消耗的時間將是指數(shù)級增長的,而我們的大腦卻可以實現(xiàn)類似的并行操作,一眼識別出字符。
【這里補充一下:Google 在幾年前就發(fā)布了一個叫作 reCAPTCHA 的驗證碼解決方案,用戶只需要簡單點擊一個“我不是機器人”的復(fù)選框就可以完成圖靈測試,不再需要分辨歪歪扭扭的驗證碼。但reCAPTCHA的技術(shù)原理是通過收集用戶環(huán)境和行為數(shù)據(jù),綜合分析、智能區(qū)分人和機器,而不是識別文字或圖片?!?/p>
剛才我們弄清楚了,因為視覺恒常性的存在,人類識別字符的能力并不依賴于字符的外在表征。但另一方面的研究發(fā)現(xiàn),字符與字符之間差異哪怕再小,也會被我們精確地識別并放大。這就是我們視覺的差異放大特征。
來看看這句話:
我們可以非常輕松的識別出這句話中的“大”和“太”的區(qū)別,并馬上從大腦中提取出兩個字不同的意義和發(fā)音,雖然這兩個字的差異只有幾個像素而已。
你可能會說,這完全是兩個字,我當(dāng)然知道其中的差異啊。
對啊,你說的對,但我們的大腦到底是如何識別出這差異的呢?
這也是我們下面要探討的問題。
4.閱讀的時候需要讀出聲嗎?
在中世紀(jì)的歐洲,閱讀時發(fā)出聲音是一種閱讀習(xí)慣,大部分閱讀者都必須像孩子讀書時那樣一邊看書一邊嘟囔著。這其中一部分原因是當(dāng)時的單詞都堆砌在一起并沒有空格,但對于正在做無聲閱讀的你來說,一定會拋出一個疑問:
我們的大腦是直接把書面文字轉(zhuǎn)化成語義?還是先轉(zhuǎn)化成語音再轉(zhuǎn)化成語義?
這第一個問題被科學(xué)家歸納為語音通路(Phonological Route),意思是在閱讀時我們必須把單詞讀出來然后才能理解文字的的意義。而第二個問題被歸納為詞匯通路(Lexical Route),即直接將字符轉(zhuǎn)化成其意義。
我們來看下面這個極端的例子:
上面這個小故事,只用到[shi]這一個發(fā)音,但這并不妨礙我們理解故事的意思。當(dāng)你在閱讀這個小故事的時候,你會發(fā)現(xiàn)有些字你是需要在大腦里停留一下,生成語音,而有些字并不需要生成語音甚至一掃而過就可以知道其含義。
研究表明,當(dāng)單詞(字符)很不常見,或是第一次看見時,我們會優(yōu)先利用“語音通路”來進行加工;相反,當(dāng)我們看到很常見的單詞時,會采用詞匯通路進行閱讀加工,先識別單詞并提取詞義,然后再利用詞義信息去提取它的發(fā)音。
更多的論證過程這里不展開,直接給出結(jié)論:
通過幾十年的研究,科學(xué)界基本達成了共識,那就是對成人來說,人在閱讀時語音通路和詞匯通路都存在,并且可以同時運****作。流暢的閱讀依賴于兩條閱讀通路間的密切合作,根據(jù)所讀的詞不同(認(rèn)識的和不認(rèn)識的、常見的與不常見的、規(guī)則的與不規(guī)則的)及閱讀任務(wù)的不同(出聲閱讀還是文字理解),每一條通路所發(fā)揮的作用大小不同。
那問題又來了,這兩條通路是如何發(fā)揮作用的呢?
5.小黃人的聚會
如果只討論語音通路,其實很簡單:只要將字符和相對應(yīng)的讀音一一關(guān)聯(lián)起來并儲存在大腦里就可以實現(xiàn)。
然而讓人頭疼的是,詞匯通路的原理可沒那么簡單。因為,如果我們要直接識別數(shù)千個常見單詞并提取詞義,那大腦則需要更大存儲,而最為關(guān)鍵的問題是:我們是通過什么原理從大腦中精確提取出相應(yīng)的詞義的?
首先,我們把大腦中存儲詞義的地方稱為“心理詞典”(Mental Lexicon)⑤。研究表明,每個人的心理詞典可以包含大約50000-100000個詞條(驚嘆大腦的非凡容量),即使是普通人也只需要零點幾秒的時間,就能從至少50000個詞條里,找出眼睛所看到字符的含義⑥。
好了,下面我們來看看詞匯通路到底是如何運作的。
我們可以先把心理詞典生動的比作一個由成千上萬個小黃人組成的聚會,他們圍成巨大的半圓,每個小黃人代表一個獨一無二的詞條,并只對他們自己的詞條有激烈反映,一聽到自己的詞條,小黃人就會大喊大叫,以便讓所有的小黃人知道這是他的詞條。
當(dāng)你在紙頁上看到一個詞,比如“太太”時,視覺神經(jīng)將這個詞傳送這個聚會上,并在大屏幕上顯示“太太”,以保證每個小黃人都能看到。這個時候所有的小黃人都會聚精會神地觀察這個詞條,看是不是自己的。那個是“太太”詞條的小黃人會大聲喊叫想讓別人聽見這是自己的,但是他的鄰座“太大”詞條的小黃人也會大叫,認(rèn)為這個詞條是自己的。但經(jīng)過短暫的競爭之后,代表“太大”的小黃人放棄了,很明顯,他的對手“太太”從字符筆畫這一刺激中得到更強的支撐,叫聲更大。到這里,這個字符就被識別出來了,并且可以進入系統(tǒng)后續(xù)的加工過程,比如提取發(fā)音。
在這個簡單的比喻中,隱藏著閱讀過程中神經(jīng)系統(tǒng)工作方式的幾個關(guān)鍵點:
第一,海量的并行加工。所有的小黃人同時工作,并不是像計算機那樣按順序逐個檢查所有的詞條。如果這個一過程是序列查找,那將是極度低效的,隨著心理字典的容量變大,運行時間將快速提高。
第二,簡單性。每個小黃人只完成一個基本任務(wù),就是檢查展示在大屏幕上的字符與自己的詞條的匹配度,僅此而已。
第三,競爭與強化。小黃人彼此爭奪代表正確字符的發(fā)言權(quán),這種競爭過程會不斷強化該小黃人遇到同一字符的話語權(quán)。
好了,以上對于詞匯通路原理的解釋,都是基于Oliver Selfridge在1959年提出的“鬼蜮”(Pandemonium)模型⑦。如果感興趣,可以自己動手去查閱。
6.你的大腦比計算機更高級
最后,我們來總結(jié)下。
我們在閱讀文字時,因為視覺的恒常性和差異放大特征讓我們精準(zhǔn)地識別字符(或單詞),再通過眼跳運動不斷將信息帶入視網(wǎng)膜的中央凹,視覺神經(jīng)再將信息通過語音通路、詞匯通路或二者一起傳送到大腦皮層。大腦再將關(guān)聯(lián)相應(yīng)的讀音或者通過小黃人的聚會提取語義,從而實現(xiàn)詞義的提取和認(rèn)知。
最后的最后,來聊聊我們大腦的高級性。
現(xiàn)階段,無論多么高科技的書面文字識別軟件,程序的復(fù)雜度都會隨著單詞(字符)的變長或數(shù)量的增長而變慢。正因為計算機中信息的加工是序列化的,那么識別一個由6個字母組成的單詞所需要的時間是一個由3個字母組成的單詞的兩倍。在任何一種序列化模型中,識別時間的增加與單詞中字母的數(shù)量直接相關(guān)。但人腦卻并不會因為單詞變長而延長反應(yīng)時間,甚至通過稍加練習(xí)可以更熟練的識別字符。這就是我們高級的大腦。
但我們必須糾正一個觀念:人腦是可以無限制地適應(yīng)環(huán)境、吸取文化,即大腦的可塑性是沒有邊界的。最前沿的認(rèn)知科學(xué)已經(jīng)慢慢開始證實,人腦的生理結(jié)構(gòu)因為受到遺傳的限制,不可能無限制地被利用,其可塑性也只是在一個范圍內(nèi)可以被接受。
用我的雙眼來傾聽逝者的訴說?!驴隧f多
注釋:
①:https://en.wikipedia.org/wiki/Foveal*
②:https://en.wikipedia.org/wiki/Saccade
③⑤⑥:Stanislas Dehaene《腦與閱讀》
④:https://en.wikipedia.org/wiki/CAPTCHA
⑦:O. G. Selfridge. "Pandemonium: A paradigm for learning." In D. V. Blake and A. M. Uttley, editors, Proceedings of the Symposium on Mechanisation of Thought Processes, pages 511–529, London, 1959.*