日韩乱视频中文字幕,性感美女在线一区,亚洲国产岛国最站AV

【嵌牛導讀】如何能讓計算機具有類似人的視覺感官能力和理解能力，涉及到具象和抽象信息的轉化，目前的工作進展或許代表了未來的發(fā)展方向。

【嵌牛提問】計算機怎樣能夠把圖片信息轉化為抽象的語言信息？

【嵌牛鼻子】圖像識別算法

轉載自新浪科技

圖片發(fā)自簡書App

【嵌牛正文】2017未來科學大獎頒獎典禮暨未來論壇年會在京舉辦。在計算機科學人工智能研討會上，斯坦福大學終身教授、谷歌云首席科學家李飛飛稱，通過圖像識別技術將圖像“變”短句，這與認知心理學實驗結果“非常接近”。

　　李飛飛認為，視覺是人類發(fā)展的重要基石，在過去的幾億年中，不同生物的視覺系統(tǒng)不斷發(fā)展，至今已成為人類大腦中最復雜的系統(tǒng)。在計算機識別領域，視覺系統(tǒng)同樣是重要研究，各國專家在視覺識別方面發(fā)明了眾多技術，近8年時間，視覺識別的錯誤率已降低了10倍。

　　“在2012年，我們了解到了GPU技術以及深度識別技術，幫助世界發(fā)展”，李飛飛說，人工智能的發(fā)展對視覺研究作用明顯。近期，專家們開始預測，根據(jù)視覺化語言模式，了解不同體積下的關系，甚至去了解不同物體間的位置和動作關系，“這是量化研究，用更豐富的方法來了解世界”。

　　圖像識別是如何了解物體的呢？

　　李飛飛舉例稱，一張照片，通過視覺識別技術，后臺可以分析出眾多標簽，通過不同標簽、不同屬性、不同關系來描述物體，而數(shù)據(jù)庫和信息集，可以做到更精準的研究。

　　“大家都用過百度和谷歌搜索圖片”，李飛飛說，當你輸入一個男人時，圖片搜索結果很豐富，當搜索一只狗時，同樣會獲得豐富結果，但當你輸入“一個坐著的男人牽著一只狗”時，結果卻大相徑庭，甚至很不理想。

　　李飛飛認為，這主要取決于算法差異。目前絕大多數(shù)算法，在搜索圖像時還是使用物體本身信息，只是簡單了解圖中有何物體。若加入更多屬性，那么結果會更好，“我們在探索新方法，比如一個長句，放到數(shù)據(jù)庫中，與圖像進行對比，通過這種算法可以得到更好更精準的結果”。

　　目前，圖像識別領域的成果是通過場景圖，可以提供4層的分析結果，從而獲得更多信息，“但這些是不夠的，到目前我們只探索了認知心理學家討論的概念”，李飛飛說道。

　　她以一名美食家的視頻舉例。視頻中，美食家在做飯時，放入了不同調料，通過圖像識別技術，這些圖像下方就出現(xiàn)了描述短語。

　　李飛飛表示，目前可以將圖像變成短句，從而出現(xiàn)更多內容，“這與認知心理學的實驗結果是非常接近的”。

　　以下為李飛飛演講實錄：

　　謝謝主持人，謝謝未來論壇科學大獎的邀請，再次回到我出生的地方，特別榮幸有這么多頂級的科學家聚在一起，討論一些非常有意思，也會對未來有很大的影響的問題和學科。

　　今天我給大家?guī)淼氖亲罱囊恍┭芯克悸?，今天我的演講內容是關于視覺智能，動物世界當中有很多物種，而且有一種非常了不起，絕大多數(shù)動物都有眼睛，因此視覺是最為重要的一種感觀的方法和認知方法，這是在動物的大腦當中，幫助動物在世界當中生存下來進行溝通，去操控和生存。

　　所以我們無論是討論動物智能或者是機器智能的話，視覺是非常重要的基石。世界上所存在的這些系統(tǒng)當中，最為了解的一點是我們所知道的人類視覺系統(tǒng)。所以在5億多年前的時候，這個進化已經(jīng)不斷地讓我們的視覺系統(tǒng)不斷地發(fā)展，使得我們的視覺系統(tǒng)非常重要的去理解這個世界，而且這是我們大腦當中最為復雜的系統(tǒng)，而且有50%的大腦當中的這些認知的單位，都有著最為復雜、最為高級的感知系統(tǒng)，所以能夠讓我們知道人類的視覺系統(tǒng)非常了不起。

圖像本身，但是我們所輸出的信息包括物體的位置以及物體之間的關系。當然這個領域有一些前期工作，但是絕大多數(shù)工作都是比較有限的。獲得數(shù)據(jù)和物體之間的關系信息比較有限。

　　最近我們的實驗當中做了這樣一項工作，開始新的研究，預測根據(jù)深度學習，以及視覺化語言模式了解不同物體之間的關系。

　　這張圖的算法能夠預測不同物體之間的空間關系，進行對比，了解這種對稱的關系，然后了解他們之間的動作，以及他們的之間位置關系。所以這就是一個更為豐富的方法，了解我們的視覺世界，而不僅僅是一系列的物體名稱，這是我們所做出的一些量化研究。說明我們的工作在不斷地進展和取得進步的。

　　一年前的時候，我們知道這個領域發(fā)展非?？?，就是關于計算機圖像識別方面。我們也知道有很多新的研究已經(jīng)超過了我們的研究成果。

　　我們可以看一下，在他們之間的關系是什么，而且在這個圖像當中不同物體的關系，能夠讓我們去更進一步了解這個問題，就是在物體之間還會有什么樣的數(shù)據(jù)集。最開始我們知道有這個形象，非常有限的信息，比如這是一個物體，COCO進一步學習，提供一個標簽，進行短句子描述，視覺數(shù)據(jù)信息是非常復雜和非常多的，

　　根據(jù)途徑出來一些問答，經(jīng)過三年的研究，我們發(fā)現(xiàn)可以有更為豐富的方法來描述這些內容，通過這些不同的標簽，描述這些物體，包括他們的性質、屬性以及關系，然后通過這樣的一個圖譜建立起他們之間的聯(lián)系?？梢栽谶@看一下這個內容。這樣一個數(shù)據(jù)庫當中，包括上千個標簽，包括屬性和關系，還有句子、問答信息，在我們這樣一個信息庫當中，能夠非常精確地讓我們來進行更加精確的研究，而不僅僅知道物體識別本身。

而且實際上到現(xiàn)在為止，我們僅僅探索了認知心理學家所討論的一個概念，人們在一眼之中能夠看到什么樣的內容，有什么樣的概念，人們只要看一眼就能看出整個圖像當中的故事，所以我們要去看一下，這種只看一下圖就能夠了解它主要信息的能力是什么呢？在我之前，曾經(jīng)做過一個研究，就是希望人們能夠告訴我們，你看到了這個圖的時候看到了什么內容，所以這是我們的實驗場景，實驗人員坐在電腦屏幕面前，給它非常簡短地看一些圖像，然后很快地去看另外的一個圖像，去遮蓋之前留下的印象。他們需要打印出自己所看到的所有內容，做這個工作給他們付10美元，現(xiàn)在不給大家一小時10美元，大家可以實驗一下這個感覺，如果你是參加我的實驗人員的話。

　　在這個圖當中其實很快能夠被一張簡單的途徑去蓋掉，很短的呈現(xiàn)時間，只有27微妙，27微妙相當于是1/40秒，簡單圖形的時間是半秒的時間，是更長的，人們還是能夠很好地理解場景信息，基本上是很短的時間。如果我給的實驗費用更高的話，大家甚至能做的更好。在這個語言當中有非常豐富的元素，不僅僅看到圖像當中的物體是什么，他們的關系是什么，而且有更多的內容。

　　2015年開始，我們有另外一個概念，叫做LSTM，他們希望把語言之間關系建立起來，我們在電腦當中給他們一個圖像，能夠描述，穿橙色工作服的工人站在路上工作，或者穿黑色T恤的男士在彈吉他，不僅僅用簡短的句子描述圖形，所以后來進行進一步的工作，就是深度捕獲?？疵總€短句，描述一個部分，然后描述圖像的場景。

　　除了這個之外，我們今年所做的工作，我們希望把這些圖像要用這些短語，讓它成為小短的句子，成為一個小段落，給了更多的內容，而且和認知心理學家所做的實驗當中，人類的描述結果是非常接近的。但是我們并沒有只停于這里，在上個周的ICCB的上面展示了一個視頻，非常豐富的研究區(qū)域，很多網(wǎng)絡上的視頻，有各種各樣的數(shù)據(jù)形式，了解這些視頻是非常重要的。在里面可以描述更長故事的片段，用同樣的模型可以這樣做，可以把時間的元素加入到里面。

　　這就是一個例子，大家可以看一下，可以看到視頻是在進行著的，我們也可以去描述每一個部分是怎么樣的。

　　這是另外一個例子，也是描述了這個演員正在做的這些事情，差不多大家能明白什么意思了。

　　另外一個部分，除了簡單的認知以外就是推理，推理可以讓我們能夠回到人工智能的最初，在20世紀七八十年代的時候，人工智能的先驅們，用了很多推理，斯坦福大學的一個教授也是把他的研究稱為一個塊狀的世界，這里面涉及到很多的深度推理。藍色還是不錯的，喜歡這些藍色的塊狀，不喜歡紅色的塊狀，不喜歡支撐三角形的東西，到底喜歡不喜歡灰色的盒子呢？所以這里有很多推理需要去做的，然后夠得出一個正確的答案。

　　當然時間過得很快，不能講的特別詳細，但是我們在實驗室里也是用了這些簡單的工具，來描述這樣一個分塊狀的世界。這里面也有很多的問答列表，每個問答列表都是涉及到推理的過程當中，最關鍵的一些環(huán)節(jié)，包括空間的一些關系，一些邏輯關系，在這里面也有一些問答例子。

　　去年，我們也是把這些智能的問答集做成了這樣一個系統(tǒng)，人類能做多少，機器能做多少，在準確上面的一個對比。我們到底怎么能夠做得更好呢？這也是最近我們做的一個工作，在ICCB發(fā)表的。我們用了一個新的程序去做，在我們的算法里面，我們把這些問題輸入進來，然后把程序進行一些協(xié)調，還有執(zhí)行的引擎，用預測的一些程序進行執(zhí)行的處理。通過這樣一個算法，我們可以看到這些學習的準確率。

　　有哪些學習模塊呢？首先判斷到底這些物體形狀怎么樣，這些紫色是什么樣的，這是一個更加復雜的，就是在灰色的這些模塊旁邊，有多少發(fā)光的這些物體？得出的結果是2。

　　我給大家分享的就是一系列的工作，有哪些能夠超越我們視覺的一些途徑，其實我們在了解到場景，還有其他的一些要素，對于整個的認知會產(chǎn)生什么樣的影響，除了這個情景、視覺、語言，還有很多推理等等，這些都是很重要的。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

圖像識別使圖片變成短句，已達認知心理學水平

圖像識別使圖片變成短句，已達認知心理學水平

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

圖像識別使圖片變成短句，已達認知心理學水平

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

圖像識別使圖片變成短句，已達認知心理學水平