自然語言處理隨筆(一)

語言是一種符號(hào),符號(hào)承載著信息。談到信息學(xué),雖然沒來得及將香農(nóng)的理論都過一遍,但是我知道熵是其中很重要的概念,描述一個(gè)隨機(jī)變量不確定性大小,熵越大則不確定性越大,這種不確定信是需要消除的??赡茴愃朴跀?shù)據(jù)的去噪。后現(xiàn)代時(shí)期,信息呈現(xiàn)大面極的碎片化,有太多重復(fù)和無意義的數(shù)據(jù)樣本。熵有聯(lián)合熵、條件熵和互信息。
聯(lián)合熵是描述兩個(gè)隨機(jī)變量所需要的信息量,大于等于其任一?;バ畔⒚枋鰞蓚€(gè)隨機(jī)變量的相關(guān)性,已知其中一個(gè)后一個(gè)的不確定性就會(huì)減少。條件熵是已知其中一個(gè)變量后另一個(gè)變量的不確定性。相對(duì)熵,涉及隨機(jī)分布()有些不理解。交叉熵是很重要的概念,和損失函數(shù)有關(guān),用來評(píng)估m(xù)odel和real distribution之間的差異,交叉熵越小model越有效。
(關(guān)于喬姆基斯的語法理論,已買書,之后記錄讀后感。)
語言是否可以用狀態(tài)機(jī)來模型化,可以的,不過基于統(tǒng)計(jì)的模型是很膚淺的,因?yàn)閮H僅將語言視為一種符號(hào),語言可以視化一種符號(hào),但這只是一個(gè)視角。如果從人工智能的角度來說,狀態(tài)就應(yīng)該是一個(gè)人的狀態(tài),比如狀態(tài)中就有這個(gè)人的潛意識(shí)、知覺、感覺、知識(shí)量、表達(dá)欲以及真實(shí)表達(dá)等屬性吧。僅僅依靠語法和語義來定義語言我認(rèn)為是及其膚淺的。所以關(guān)于語言的本質(zhì),還要再了解(《A Introduction To Language》一定要看起來)。
語料庫的建立,我還是認(rèn)為,和對(duì)數(shù)學(xué)的理解有關(guān),數(shù)字,以及關(guān)系。數(shù)學(xué)某種意義上可以理解為對(duì)……萬事萬物(?)關(guān)系的一種抽象吧。
Chatbot 4:Viv還蠻有趣的。http://breezedeus.github.io/2016/09/01/breezedeus-viv-ai-chatbots-generator.html
可作了解。
關(guān)于已有算法的重點(diǎn)學(xué)習(xí),還是在于已有的語言模型。
這個(gè)需要逐一了解概念、推演、以及實(shí)現(xiàn)代碼。對(duì)語言模型的理解,就是對(duì)于現(xiàn)有的語料庫訓(xùn)練,以做出一些類AI的程序吧。還是實(shí)踐出真知……就是從現(xiàn)有的數(shù)據(jù)中去提煉,看最終能搞出一個(gè)什么來。這也是現(xiàn)在AI領(lǐng)域云遮霧繞的原因之一。AI領(lǐng)域會(huì)在這個(gè)過程不斷和其余的領(lǐng)域結(jié)合在一起的。不過這離自然語言就扯遠(yuǎn)了。
……
每個(gè)模型我還是動(dòng)手理理關(guān)系圖,先理出結(jié)構(gòu)來,然后演算,代碼實(shí)現(xiàn)。注意自己的目標(biāo),是自然語言處理,計(jì)算語言學(xué),語言學(xué),圍繞的關(guān)鍵詞始終要是對(duì)語言的思考。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容