一、智能化中文文本校對技術(shù)簡介
??隨著計算機在新聞及圖書出版業(yè)領域的廣泛應用,各種電子出版物如雨后春筍班不斷涌現(xiàn),尤其是隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡電子雜志、商務網(wǎng)頁、社交網(wǎng)絡平臺更是多如牛毛。而不管是出版社的報紙或是圖書,還是互聯(lián)網(wǎng)上的各種電子信息,一般都是通過鍵盤錄入、OCR識別或語音識別等方式進入計算機的。這些錄入方式在目前的技術(shù)水平下都不能保證所輸入的信息準確無誤。文本校對已經(jīng)成為報刊、書籍出版前的審核把關(guān)的重要環(huán)節(jié),它直接影響著出版物的質(zhì)量。隨著近年來出版行業(yè)業(yè)務量和電子化的飛速發(fā)展,校對環(huán)節(jié)的工作量大大增加,使得傳統(tǒng)人工校對方法越來越成為印刷出版自動化的瓶頸,解決錄入信息的準確性問題已經(jīng)成為耽誤之急。
??因此使用計算機來代替人進行文本校對工作意義重大,計算機校對比人工校對具有明顯的優(yōu)點,主要體現(xiàn)在以下幾個方面:
??(1)計算機校對的速度快、效率高、不疲勞。校對工作本身是一種比較機械的工作,校對人員長時間地面對密密麻麻的漢字、字母、標點符號和各種算式,眼晴和精神都十分疲勞,往往在精神上產(chǎn)生一種煩情緒,注意力的廣度和穩(wěn)定性均直線下降,如果沒有良好的敬業(yè)精神,甚至就會匆匆地測覽而過,差錯也就不知不覺地隱伏下來,給圖書的編校質(zhì)量造成影響。計算機校對則不存在疲勞和煩躁的問題,且它的速度和效率更是人工校對所望塵莫及的。
??(2)計算機不存在工作態(tài)度、心理情緒等問題,人工校對因不同人員的工作環(huán)境、工資待遇等的不同而會影響校對人員的工作態(tài)度或心理情緒,造成對文本校對質(zhì)量的影響,而這種由于工作態(tài)度或心理情緒問題,在計算機上是不存在的。
??(3)計算機校對軟件里的詞庫和專業(yè)術(shù)語詞庫容量非常之大,非一般的人工校對員的知識面所能比,且校對不同專業(yè)的書稿時,可掛接不同的專業(yè)術(shù)語詞庫,因此,對中文字、詞、語法錯誤,不符合漢語語法和語義的詞搭配錯誤、領導人人名和職務搭配錯誤、科學計量單位使用不規(guī)范、成對標點的錯誤使用、某些數(shù)字錯誤、不符合所掛專業(yè)詞庫的術(shù)語及英文單詞拼寫錯誤等均可迅速查出并標紅。另外,對那些人工校對容易忽略的錯誤,如“沖刺”和“沖刺“(誤),“竟爭”和意爭”(誤),“震撼”和“震憾 (誤),“氣概”和“氣慨(誤),“治理”和“冶理”(誤),“已經(jīng)”和“己經(jīng)”(誤)等 等,電腦均能快速、準確地查找出來。
智能化中文文本校對校對系統(tǒng)的組成:
??智能化中文文本校對系統(tǒng)主要包括知識獲取模塊、預處理與分詞模塊、自動查錯模塊和自動糾錯模塊四個主要模塊,同時還包括預處理知識庫、查錯知識庫、糾錯知識庫等知識庫系統(tǒng)。各個模塊之間的關(guān)系如圖1所示:

??(1)知識獲取模塊:從大規(guī)模語料庫(包括生語料和熟語料)中獲取語言統(tǒng)計知識,用以建立文本自動查和自動糾錯的語言模型與算法。知識庫由兩部分構(gòu)成:查錯知識庫和糾錯知識庫,查錯知識庫主要用于文本查錯模型與算法,包括從生語料中獲取的字頻向量表、二元、三元字字同現(xiàn)率表,從分詞和標注后語料中獲得的詞頻向量表、詞二元同現(xiàn)表、詞性二元和詞性三元同現(xiàn)表、二元義類大類和義類中類同現(xiàn)表、同時還包括句法知識庫和政治性規(guī)則庫。錯知識庫主要用于對標紅的錯誤給出錯建議,包括易混淆詞典、相似碼字詞詞典、字驅(qū)動雙向詞典、英文單詞骨架鍵詞典以及似然匹配規(guī)則。進行糾錯建議排序時,還要用到查錯知識庫中的字詞接續(xù)(由同現(xiàn)數(shù)據(jù)得到) 和詞性接統(tǒng)計知識。
??這部分是獨立于系統(tǒng)之外單獨用來從語料中獲取統(tǒng)計知識的,與其他三部分在程序上沒有緊密的連接。
??(2)預處理與分詞模塊:預處理和分詞模塊主要是對校對的文本進行分詞,目前我們的系統(tǒng)能夠識別純文本格式(DXT)和富文本格式(RF),對于其他格式的文本文件,如Word、PDF、WPS和華光格式,需要進行格式轉(zhuǎn)換,去掉控制符,生成純文本的格式。分詞是大多數(shù)自燃語言處理系統(tǒng)的基礎,本系統(tǒng)也不例外,我們實現(xiàn)了最大配的分詞模塊,該模塊同時具有人名、地名的識別功能,由于使用插件式結(jié)構(gòu),本系統(tǒng)完全可用于分詞模型與算法的試驗,也可以將現(xiàn)有的效果較好的分詞程序方便地接入我們的系統(tǒng),用于查模型和糾錯模型。
??(3)自動查錯模塊:該模塊主要實現(xiàn)了各種查錯模型與算法,該模塊的主要功能是進行中文文本錯誤的偵測查錯,具體來說包括中文文本的字詞級、句法級、語義級和政治性錯誤的偵測,對于字詞級錯誤,我們主要在中文文本中的“非多字詞錯誤”與“真多字詞錯誤”的分類思想的基上,采用規(guī)則與統(tǒng)計相結(jié)合的方法進行錯誤偵測;對于句法級錯誤,在句法規(guī)則和語法詞典的基礎上,采用語法詞典與統(tǒng)計相合的方法進行錯誤偵測;對于語義級錯誤,在義元理論的基上,采用語義搭配知識庫與證據(jù)理論相結(jié)合的方法進行錯誤偵測;對于政治性錯誤,在政治規(guī)則庫的基礎上,采用知識推理的方法進行錯誤偵測。該部分的輸出是対錯誤字串進行了標記的文本,其結(jié)果由標紅子過程標示后顯示在屏幕上 。
??(4)自動糾錯模塊:本模塊主要實現(xiàn)了糾錯建議的生成算法與排序算法,本項目的糾錯建議生成算法是基于錯誤成因的。對于排音類錯誤,在特定大小的滑動窗口內(nèi),采用雙向拼音匹配的方法進行錯誤的定位和糾錯建議生成;對于五筆類錯誤,在特定的似然匹配規(guī)則的基礎上,采用相似碼計算的方法解決錯誤的定位和糾錯建議生成問題。對于糾錯建議排序,本項目構(gòu)建了基于語義并置理論和上下文語境提出糾錯建議的排序模型,通過融合上下文信息、大規(guī)模語料庫和編碼信息進行各個糾錯建議化先權(quán)值確定,當優(yōu)先權(quán)值確定之后,使用快速分類或冒泡法的排序算法對糾錯建議進行排序。
二、智能化立體倉庫技術(shù)簡介
??智能化立體倉庫歷經(jīng)立體倉庫、自動化立體倉庫兩個發(fā)展階段演變而來的,其發(fā)展歷程如下圖所示:

??智能化立體倉庫系統(tǒng)集計算機信息管理、計算機控制技術(shù)與機械工程于一體,用于解決物流領域倉儲利用低、占用土地多、物流效率低的問題。在機械零部件制造、醫(yī)藥、煙草、快消品、電子商務等領域具有廣闊的應用前景。本項目通過校企合作,在相關(guān)科研項目的支持下,針對智能化立體倉庫系統(tǒng)中WMS、WCS以及物流設備中的關(guān)鍵技術(shù)問題開展了長期深入的研究。
??通過不斷的深入研究,我們確定了智能化立體倉庫軟件部分的三層架構(gòu),如下圖所示:

??WMS管理系統(tǒng)是倉庫自動化管理系統(tǒng)的核心,它包括倉庫信息管理,庫存管理,出入庫管理及報表等一系列管理功能,WMS管理系統(tǒng)功能模塊結(jié)構(gòu)如下圖所示:

??調(diào)度系統(tǒng)負責堆垛機、輸送機、叉車等各種硬件設備的調(diào)度指令的下發(fā),調(diào)度系統(tǒng)結(jié)構(gòu)圖如下:
