軍事語料庫的研究內(nèi)容,個人理解,可以從以下幾個方面去著手考慮。
1、緊缺性軍事語料庫構(gòu)建。結(jié)合目前軍事項目,軍事決策過程中缺乏什么必備的軍事文本資源,以此頁點。做緊缺性的語料收集工作,以滿足軍事需求。這個可以做緊缺性的軍事語料收集,解決的是類型語料的不足和緊缺性問題。
2,深加工的軍事情報語料庫。這里所說的深加工,是針對當前軍事語料加工程度低,無法直接利用或用的更好(可用信息不足,不夠細致)的問題提出的。可以做的是對語料進行知識加工,加工的類型有,對文本進行打標簽,對文本進行實體標注,事件標注,情報標注。概念標注等,這個標注的結(jié)果一方面可用于檢索或其他知識挖掘用,另一方面也可提升語料庫使用的信息化檢索程度,再者標注出來的信息可以進一步作為評測集為學術(shù)界做貢獻。
3,軍事語料庫的體系構(gòu)建問題
體系問題是語料庫另一方面的工作,不同來源源,不同形式的語料庫混在一起,很有可能會帶來規(guī)范不統(tǒng)一的結(jié)果,這種結(jié)果不利于語料之間的利用和管理。此時,可能需要從語料庫的體系出發(fā),針對這些問題,建立一個利于共享和管理的統(tǒng)一規(guī)范體系。
4,基于軍事語料庫的知識挖掘
這個研究內(nèi)容是對第二個研究內(nèi)容的延伸,基于加工的語料庫,進行知識挖掘,即知識的結(jié)構(gòu)化,建成可用的軍事事理圖譜,軍事知識圖譜,并用于作戰(zhàn)建模型等后續(xù)應用。這也是可以研究的一個方向。
三、軍事語料庫中的關(guān)鍵技術(shù)
這個部分的內(nèi)容單獨說有點虛,關(guān)鍵技術(shù)還是要落到研究內(nèi)容上去。以上述的幾個研究內(nèi)容來看,包括一些領域語料的采集技術(shù),領域的深加工技術(shù)(軍事語料的標簽分類技術(shù),實體標注技術(shù),事件標注技術(shù)等),體系構(gòu)建上,具體又可分為規(guī)范體系的構(gòu)建技術(shù)等;知識挖掘上所涉及到的技術(shù)可能多一些,具體包括知識抽取技術(shù),事理抽取技術(shù)等信息抽取技術(shù)手段。
總的來說,圍繞軍事需求開展軍事領域語料庫的研究是有意義且有必要的。時間倉促再加上對軍事領域的真實情況掌握的不夠,有些地方說的可能太簡單,也可能不對,請戴老師批評指正!
祝戴老師工作順利!