葉平:中國漢字傳奇36丨漢字與電腦大碰撞

第五篇?? 中國漢字傳奇

36. 漢字與電腦大碰撞

1981年8月12日,美國IBM公司在紐約市對外宣布:IBM PC個人電腦橫空出世。著名的《時代》周刊在介紹本年度“新聞人物”時滿懷激情地寫到:“在一年的新聞里,這個最吸引人的話題,它代表著一種進程,一種持續(xù)發(fā)展并被廣泛接受和歡迎的進程。這就是為什么《時代》在風云激蕩的當今世界中選擇了這么一位新聞人物,但這完全不是一個人物,而是一臺機器”。它昭示著人類社會從此跨進了個人電腦的新時代。

IBM PC個人電腦

對于字母文字(例如英語)世界而言,個人電腦的作用首推“換筆”——字母還是那26個,鍵盤還是那個QWERTY,用英文打字機打字改換成電腦打字不費吹灰之力。至少在西方發(fā)達國家,當絕大多數(shù)家庭或個人都擁有PC機之后,在“個人電腦”與“個人打字機”或者“個人的鋼筆”之間不再存在天塹般的差距,第三次書寫革命大“換筆”已經(jīng)初現(xiàn)端倪。然而,對于中國漢字世界而言,要想用個人電腦“換筆”,與中文打字機的命運一樣,又必須突破那個橫亙在成千上萬計的漢字與QWERTY鍵盤之間的巨大障礙,從而引發(fā)了漢字與電腦歷史性的“大碰撞”。能否突破漢字進入個人電腦的桎梏,關系到漢字在信息時代的生死存亡,以至于語言文字學家周有光先生激奮地呼吁:“我們已經(jīng)丟掉了一個機械打字機的時代,我們絕不能再丟掉一個電子打字機的時代。”

字母文字世界的女孩用電腦打字

巨大障礙的一端是海量的漢字。古代《說文解字》收錄的漢字只有9000多個,而如今最全的《中華大辭典》收錄了10萬多個漢字。為了壓縮漢字的巨大體量,文字工作者們進行了大量的“漢字查頻統(tǒng)計”,即從各種漢字文獻里,查找每個漢字的使用次數(shù)。1977年,中國最大的一次漢字查頻統(tǒng)計,在國家統(tǒng)計局的指揮下整整進行了兩年,一共統(tǒng)計了86本書籍、104本期刊和7075篇文章,總字數(shù)達到2000多萬字,內(nèi)容涉及工業(yè)、農(nóng)業(yè)、軍事、政治、科技、文學、醫(yī)藥、教育等等方面,包羅萬象。查頻結(jié)果表明,最常用的漢字共有6347個。1980年,中國頒布了第一個漢字信息處理方面的國家標準,明確規(guī)定基本的漢字為6763個。到2022年,教育部正式發(fā)布的《通用規(guī)范漢字表》共收字三級8105個字。其中,一級字表為常用字集,收字3500個,可以作為義務教育階段的識字標準。二級字表收字3000個,常用度僅次于一級字。一、二級字表合計6500字,主要滿足出版印刷、信息處理和社會生活一般用字需要。就這樣,進入電腦的漢字被壓縮到了6500個字。

《通用規(guī)范漢字表》(局部)

漢字的字頻指每個漢字使用的頻繁程度,即它可能出現(xiàn)的頻率。字頻的統(tǒng)計表明,對于普通中國人而言,認識600個常用字就可以覆蓋80%的語言資料;認識960字可以覆蓋90%的語料;哪怕你只認得3000字,就能夠當作家,依據(jù)就是3000字的字頻信息覆蓋了99%的中文語料。這里還有一個有趣的現(xiàn)象。5萬漢字中有為數(shù)不到100個字,它們的使用頻率占總頻率三分之一強,人們似乎特別喜愛這些字。

漢字高頻字順序表

巨大障礙的另一端是那個QWERTY鍵盤,即如何用僅有幾十個鍵位的鍵盤來輸入6500個漢字。目前可行的方法就是編碼輸入。1990年頒布的中國國家標準里專門列出一個詞條,用嚴格的科學術語將“編碼”定義為:“按一定的規(guī)則對指定的漢字集內(nèi)的元素編制相應的代碼”。這里所說的“指定的漢字集”,目前指的就是那6500個漢字;所謂“一定的規(guī)則”,即按照某種簡潔、方便且容易記憶的方法,以數(shù)字或字母作為漢字的代碼,把漢字“壓縮”到QWERTY鍵盤來輸入。

QWERTY電腦鍵盤

1976年底,海峽對岸的朱邦復首次發(fā)表中文形意編碼,以中國造字祖先的名字命名為“倉頡輸入法”。

出生于1937年湖北的朱邦復,遭遇過時代變遷的動亂。他從臺灣農(nóng)學院農(nóng)藝系畢業(yè)后便去服了兵役,退役后卻只身前往了巴西墾荒。接下來的時光,他當過領班、餐廳服務員和攝影師,直到在巴西一家出版公司的工作經(jīng)歷,才徹底改變了自己的人生軌跡。

朱邦復研究中文計算機

1972年的某天,朱邦復看到編輯部正在處理一份葡萄牙文的小說,20萬字的文稿兩小時之內(nèi)便輸入了電腦印刷成書。這件事激勵了他萌生了如何把中文也輸入電腦的大膽想法。朱邦復將自己埋首在各類字典中,把字典里的字一個個剪下來,剪了幾十本字典,把所有的漢字編卡,然而把卡片排列組合了幾千次,最后訂出了一套編碼表,記憶口訣為“日月金木水火土,人心手足口耳目,王石山蟲魚犬馬,衣言絲草竹”,這便是倉頡輸入法的雛形,命名為“中文形意檢字法”。直到八十年代初期,在臺灣某高校計算機中心的支持下,朱邦復成功完成了12000字的中文文件的輸入。又過了幾年,他終于以倉頡輸入法為基礎發(fā)明了中文字形產(chǎn)生器,造出了中文終端電腦。

朱邦復的倉頡輸入法鍵盤,1976年底

1978年,中國上海的支秉彝在《自然雜志》上正式介紹了他的“見字識碼”系統(tǒng)。

支秉彝是江蘇泰州人。1934年,先后就學于浙江大學、德國萊比錫大學,獲自然科學博士,曾在德國藍點無線電廠任工程師。1945年支秉彝購置了一批精密標準儀器欣然回國,擔任中央工業(yè)試驗所電子試驗室主任。上海解放后,他創(chuàng)辦了黃河理エ儀器廠。1964年,他調(diào)上海電工儀器研究所任總エ程師。

支秉彝漢字編碼的發(fā)明是在那個特殊年代。當他被誣為“反動學術權威”被關押的某天,他看到隔離室墻上“坦白從寬,抗拒從嚴”八個大字,驟然間萌發(fā)了一個研究想法:能不能把漢字編成一種有規(guī)律的代碼,用以替代打電報的老辦法,進而讓漢字同西文一樣直接進入計算機。支秉彝憑早年在德國任教漢語的根基,潛心思考,以26個拉丁字母逐個試著編碼漢字。在燈光昏暗的隔離室,支秉彝利用茶杯蓋子編碼寫字,幾十個漢字編滿后抹了再編。他沒有字典,沒有參考資料,也沒有任何人可以探討和交流,憑借的只是頑強的意志和超人的記憶力……。

隔離室里的支秉彝研究編碼

1969年9月,支秉彝從隔離室放出來監(jiān)督勞動,他仍堅持著漢字編碼研究。他打破單一分解漢字字形的方式,綜合分析漢字字音、字形、筆劃和拼音之間的關系,以4個字母表示一個漢字,規(guī)則簡單,易于掌握。如“路”字,可拆成口、止、文、口四部分,取部首拼音讀音的第一個字母,即組成“路”的代碼KZWK 。以一本《新華字典》作伴侶,支秉彝把字典上的8500字如此都編上了碼,毎個字填寫一張卡片,從中探索和解決重復碼的規(guī)律。就這樣,支秉彝終于發(fā)明了“見字識碼”的編碼系統(tǒng),也被稱為“支碼”系統(tǒng)。整整六年過去,當黎明又重新來臨的時候,當知識又重新找回它的價值的時候,我們的儀器儀表專家額頭上已爬滿了皺紋,甚至只能夠坐著輪椅來發(fā)表自己的論文。他終于看到自己含辛茹苦研究出的“神秘符號”取得了兩項中國第一:中國報紙第一次報道的漢字編碼,中國大陸第一個漢字信息處理系統(tǒng)。1977年,上海市電話局“114”服務臺按照“支碼”,成功地把用戶單位名稱的漢字儲存在計算機內(nèi),話務員根據(jù)用戶要求,按下字鍵,通過電腦自動地回答所查到的電話號碼。

漢字編碼研究的開拓者支秉彝院士

朱邦復和支秉彝的研究開創(chuàng)了漢字編碼研究的先河。他們分別創(chuàng)造的編碼方法還不夠簡便,不太實用。但是,他們的發(fā)明卻引來了中國漢字編碼的逐鹿中原,形成了歷史上罕見的漢字編碼競爭熱潮。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容