姓名:梁祥????????學(xué)號(hào):17021210935
【嵌牛導(dǎo)讀】:人工智能距離我們的生活越來越近,或許真的會(huì)有一天你都不知道坐在電腦另一面跟你聊天的是人還是一個(gè)冷冰冰的機(jī)器。
【嵌牛鼻子】:LDA、微軟、寫詩(shī)
【嵌牛提問】:我們距離一個(gè)能正常交流的機(jī)器人還有多遠(yuǎn)?
【嵌牛正文】:
那些時(shí)間的空氣
我凝望著樹葉
一樁樁更鮮艷的春花
能在萎靡的花園內(nèi)
遇不見一個(gè)可愛的遺痕里
在秘密的樹林里
有時(shí)共浴在鮮艷的青春的可憐的花園內(nèi)
明知今夜月色之夢(mèng)愛
那些時(shí)間的空氣

上面是微軟開發(fā)的人工智能“小冰”所書寫的詩(shī)篇。這也是當(dāng)人工智能攻克了人類在圍棋領(lǐng)域所設(shè)置的壁壘之后,又一次在人文領(lǐng)域的重大突破。結(jié)構(gòu)豐富語(yǔ)言和工具的使用曾一度被認(rèn)為是人類與動(dòng)物的重要差距。很多人都認(rèn)為,人工智能只能在工業(yè)化領(lǐng)域進(jìn)行重復(fù)機(jī)械的勞動(dòng),但是作為強(qiáng)人工智能,對(duì)情感和語(yǔ)言的分析早已是工程師們的囊中之物。在早些時(shí)間,人工智能已經(jīng)通過對(duì)幾十萬本小說的訓(xùn)練,獲得了人類的基本語(yǔ)言框架?,F(xiàn)在對(duì)詩(shī)歌的進(jìn)軍,在某些程度上,已經(jīng)表明人工智能在人文領(lǐng)域已經(jīng)達(dá)到甚至超越了普通人的水平。畢竟大多數(shù)人寫的詩(shī)歌也就打打油而已。

說起自然語(yǔ)言分析,就不得不提到曾經(jīng)繁榮了整個(gè)行業(yè)的LDA(Latent Dirichlet Allocation)算法。它是一種具有三層貝葉斯結(jié)構(gòu)的主題模型。主題模型,顧名思義即是利用文中詞匯的主題作為紐帶將詞匯和文章聯(lián)系到一起。

每一層都有相應(yīng)的隨機(jī)變量或參數(shù)控制。最早是一種用于文檔主題生成的模型,包含詞、主題和文檔三層結(jié)構(gòu)。其基本思想是:每個(gè)文檔都是由隱含的T個(gè)隱含主題構(gòu)成,即文檔由隱含的T個(gè)主題隨機(jī)混合而成,每個(gè)主題又是詞的分布,對(duì)應(yīng)一組特征詞。主題模型可以在不借助詞典的情況下,將高維的詞向量空間映射到低維的潛在語(yǔ)義空間。

假如我們需要寫一篇關(guān)于新上市汽車的文章,首先需要確定文章大概的主題,比如要寫這輛汽車的動(dòng)力、外觀、內(nèi)飾。確定完主題之后,就要下筆了,下筆的過程其實(shí)是在確定的主題中選擇合適的詞。
動(dòng)力詞:發(fā)動(dòng)機(jī)、渦輪增壓、功率、油耗、扭矩等;
外觀詞:氙氣、天窗、后視鏡、前臉、格柵燈等;
內(nèi)飾詞:儀表臺(tái)、中控臺(tái)、方向盤、座椅、靠背等。
最后加上合適的語(yǔ)法,文章就完成了。文章確定主題、主題確定詞的過程,就是LDA的逆過程。
說這么多,其實(shí)LDA就是把一篇或多篇文章按照主題進(jìn)行聚類,而聚類依據(jù)呢,就是文章中該主題下詞匯量的多少。

這樣看來,其實(shí)人工智能的寫作大計(jì)其實(shí)也沒有什么太高端的東西,它所創(chuàng)作的東西完全取決于它的訓(xùn)練數(shù)據(jù)。微軟曾關(guān)閉了其在 Twitter 等幾個(gè)平臺(tái)上線的聊天機(jī)器人,原因是在網(wǎng)友的“調(diào)教”下,她不但學(xué)會(huì)了辱罵網(wǎng)友,還發(fā)表了種族主義評(píng)論和煽動(dòng)性的政治觀點(diǎn)。所以雖然人工智能學(xué)會(huì)了如何去表達(dá),但是其在交流方向上還是高度依賴用戶的意圖指向。所以當(dāng)你心累了,還是打個(gè)電話給媽媽靠譜一點(diǎn)。