漫談AI

前幾年互聯(lián)網(wǎng)大數(shù)據(jù)盛行,很多人跟風 都去學了 計算機 。然后突然發(fā)現(xiàn)IT行業(yè)內(nèi)卷嚴重,然后現(xiàn)在又開始流行AI,很多人問我:AI是個什么東西 ?AI和 大數(shù)據(jù)有什么 關系 ?那我今天 就 花點時間來介紹這個。

AI顧名思義 就是 artificial intelligence,中文意思就是人工智能,港臺地區(qū)也會翻譯成人工智慧。其實人工智能 的 誕生是 依托大數(shù)據(jù)和數(shù)學的。早在2015年,百度大腦 的吳恩達(后來辭職回斯坦福了)提出了“deep learning”的概念,他把當時機器學習 中 神經(jīng)網(wǎng)絡的算法模擬人類 大腦 思考問題的方式,希望通過這個 算法教會計算機像人一樣的思考,然后2年后,反向傳播的模式通過使用求導中的鏈式法則被解決。“deep learning”的實現(xiàn)變得可行。于是數(shù)學家和計算機專家們決定把deep learning 搬上舞臺。但是 DeepLearning 這個 名字不太吸引人。于是數(shù)學家們決定改成人工智能——意思就是讓計算機像人一樣思考問題。

現(xiàn)今的人工智能分三個方向:圖像,聲音,文字。我會一一詳述他們的每個方向 的 發(fā)展以及成就:

首先是聲音模擬:現(xiàn)在的人工智能可以做到將 任何一個人的聲音語料去模擬視頻中的臺詞,以達到配音的目的。比如你說:我是中國人!,我把這句話錄下來了,我就能用這句話去給視頻中別的角色配音。那你肯定會問了,那如果那么厲害了,配音演員是不是都下崗了?這個就關系到聲音領域一個無法解決的問題,就是模擬說話者的情感。這一點目前無法做到,如果隨著技術的發(fā)展,有一天能模擬情感了,那配音行業(yè)消失也是有可能的。不過現(xiàn)在的聲音模擬技術,已經(jīng)可以在某一類視頻中得到應用了,就是鬼畜視頻——因為鬼畜視頻不需要太過精準的把握情感,觀眾也就圖個樂呵。

其次是圖像識別——這個領域的應用就很多了:

1.名畫修復:以前經(jīng)常聽到文物字畫修復者根據(jù)作者平生的繪畫風格,然后把他的一些缺損 的畫自動補齊——這個現(xiàn)在計算機也能做到:首先把這個作者的其他的繪畫作為訓練樣本,然后訓練模型之后來復刻這個缺損的畫。

2.超分辨率:十年前,香港一些大學的教授就開始使用機器學習的算法,來優(yōu)化一些低分辨率的視頻了,我的導師當時 就在做類似的研究了(他 外面還有一個公司,做類似的產(chǎn)品賣給安防公司用)。當然現(xiàn)在這些技術就更純熟了,使用深度學習算法,可以直接將低分辨率 的圖像還原成高清?!@個對于一些預算不高的安防公司不得不說是福音,他們再也不需要追求高清分辨率的攝像頭了,只要買個一般的攝像頭,用的時候計算一下就行了。

3.自動駕駛,你可能會問,自動駕駛跟圖像識別有啥關系,但實際上關系很大。自動駕駛汽車會在車上面的各個 方向? 安裝攝像頭,然后拍下 周圍的街景,交給計算機進行識別,從而指揮車輛進行加速或者規(guī)避,完全不需要車主自己控制——在深度學習出來之前,早先的識別 經(jīng)常鬧笑話:比如你給一條狗穿人 的衣服,計算機會把它當成人。但是隨著數(shù)據(jù)的量級的提升,以及深度學習 的應用。這種笑話不復存在了。

4.人臉識別——早期的人臉識別訓練需要一個月之久,容錯率太低,這個導致一個人在體型變化之后,計算機會認不出你,而現(xiàn)在這一個缺點已經(jīng)不復存在了?,F(xiàn)在所有的公安的,酒店 的人臉識別基本上都 被商湯科技壟斷了。現(xiàn)在人臉識別訓練的時間已經(jīng)大大縮短,而且就算你一一段時間胖了十斤肉,計算機依然能認出你。

當然還有一些其他的奇奇怪怪的應用方向——比如監(jiān)控車主的眼球轉(zhuǎn)動 ,來提醒車主不要開小差。監(jiān)控學生的上課的坐姿 ,同樣判斷他們是不是開小差。還有一些體育方面的應用:比如讓計算機代替裁判判罰等。還有一些比較成熟的方向也 用到了圖像識別:比如手寫識別。

然后說說 NLP,? NLP目前有比較重要的幾個應用方向:機器翻譯,文本摘要,智能問答,文本分類。

1.機器翻譯——我說的機器翻譯可不是谷歌或者百度的那種弱智 翻譯:比如one times sexual 懂的都懂。我說的機器翻譯是根據(jù)某個領域的生態(tài)圈,比如電商,移動互聯(lián)網(wǎng),智能制造,社交媒體。根據(jù)特定領域下的一些樣本語料,進行訓練得出精準的翻譯結果(通常這種訓練是需要大的GPU,其實深度學習 的訓練 ,一般都需要GPU)。這個翻譯結果通常是可以直接拿來用的,或者給外國人一看就能懂。

2.文本摘要——讓計算機讀一篇文章,摘出其中的關鍵詞,然后連詞成句:這個技術叫做 主題模型。早期的文本 摘要需要在獲得關鍵詞之后,自行腦補,連詞成句?,F(xiàn)在 的算法可以做到讓計算機 自動生產(chǎn)摘要,不需要你自己想。自動生成古詩詞就是文本摘要的一個應用。

3.文本分類,這個應用方向比較普遍——這個方向的出現(xiàn) 其實是因為要彌補早期使用機器學習的方式做分類效果不夠好的缺點。文本 分類的一些主要方向比如情感極性分析,作文病句 分析,結合一些其他特定場景,只要帶有標簽的數(shù)據(jù),都可以用文本分類。

4.智能問答——早先的智能問答其實更像搜索引擎,比如你搜什么,出來什么或者一些衍生的內(nèi)容?,F(xiàn)在的搜索引擎還能回答問題。這些 方式都是因為圖理論的應用的興起(就是之前說的基礎數(shù)學中的圖論),誕生了知識圖譜,然后用這個技術去做了相關的應用?,F(xiàn)在市面上很火的聊天機器人,其實就是智能問答。

最后說下我自己的行業(yè)經(jīng)歷:我接觸 NLP時間較晚,最早接觸 NLP的時候,大部分 時間 都是 算 詞頻 ,情感 分析,最多來個主題模型——這個是NLP中最初級的手段,只有應用于某個 領域,才能真正發(fā)揮作用。現(xiàn)在雖然在公司做NLP項目,但是都是研究階段。好處就是不需要有太多產(chǎn)出,因為老板其實沒啥 要求;壞處就是自己的成就感 ,歸屬感不足。

那有人要問,從事人工智能行業(yè),需要一些什么技能——我覺得掌握一個主流的人工智能軟件:python,java,c++等;然后就是數(shù)學能力——不是解數(shù)學題的能力,是對于算法的理解以及想象能力。那怎樣提升數(shù)學的想象能力,我有以下幾點建議:

1. 多推公式,少背誦

2. 多用數(shù)形結合。

3. 細節(jié)不要太在意,除非你需要寫論文論證某個事情,不然不要在意細節(jié)。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容