本文節(jié)選自《深度學習21天實戰(zhàn)Caffe》By 趙永科
深度學習一度備受冷落,真正的燎原之勢始于2012年多倫多大學Geoffrey Hinton的學生Alex Krizhesky在ILSVRC(ImageNet LargeScale Visual Recognition Challenge, ImageNet大規(guī)模視覺識別競賽,http://image-net.org/challenges/LSVRC)中使用深度學習方法一舉多得圖像分類、目標定位兩個項目冠軍,遠遠拉開了與第二名(傳統(tǒng)計算機視覺方法)成績的差距。
如圖1.2所示為Alex在比賽中使用的深度學習模型AlexNet結(jié)構(gòu)。注意到網(wǎng)絡分成上下兩部分,分別運行在兩塊GPU(GRaphics Processing Unit)上,其中虛線表示兩塊GPU之間的數(shù)據(jù)通信。事實上,該模型已成為深度學習的模板結(jié)構(gòu),一些新模型(VGG/GoogleNet)均在AlexNet基礎上改進得到。

為什么深度學習在2012年而不是其它時間爆發(fā)?主要有3個有利因素:
(1)更大的數(shù)據(jù)集,如ImageNet
(2)新的深度學習技術,如ReLU,Dropout等
(3)新的計算硬件,如GPU
我們先看看國外的深度學習有哪些進展。
谷歌與微軟
Google在Geoffrey Hinton等大牛的帶領下,在理論與技術方面一直保持世界領先地位。利用GoogleNet,在2014年ILSVRC中其分類錯誤率低至6.66%。
基礎平臺包括早期基于大規(guī)模集群的DistDebief(由16000個計算節(jié)點組成)和近期開放的支持GPU加速的TensorFlow。2016年朋友圈刷屏的“阿爾法狗”(AlphaGo)也是Google強大深度學習的具體案例之一。
Microsoft在2015年ILSVRC目標檢測任務中使用深度參與學習框架(Deep Residual Learning Framework)取得絕對優(yōu)勢,贏得200個類目中194個最佳檢出率,平均檢出概率高達62%(2014年同一任務最好結(jié)果為37%)?;贑affe實現(xiàn)的Fast-RCNN(作者為Ross Girshick)在目標識別領域占有重要地位。
Microsoft在基礎平臺方面也勢頭強勁,2015年推出的Azure Machine Learning Studio有大量的機器學習算法,適合用來構(gòu)建預測分析解決方案。這些算法可用于一般的機器學習,如回歸分析、分類、聚類和異常檢測,且每一個都可以解決不同類型的機器學習問題。為其做支撐的不僅有高可擴展性、支持CPU/GPU計算的Minerva及分布式深度學習訓練系統(tǒng)Adam、CNTK,還有利用Catapult加速深度卷積神經(jīng)網(wǎng)絡(DCNN)的項目也在進行中。
Facebook,亞馬遜與NVIDIA
Facebook于2013年成立了人工智能實驗室,在Yann LeCun的帶領下Facebook同紐約大學數(shù)據(jù)科學中心在數(shù)據(jù)科學、機器學習、人工智能領域展開合作,代表性工作有最著名的開源深度學習項目Torch(http://torch.ch/)和fb-cunn(https://github.com/facebook/fbcunn)。
Amazon本身是做IaaS平臺的,看到機器學習如火如荼地發(fā)展,也迅速融入并推出了云上的機器學習服務(http://aws.amazon.com/cn/machine-learning/),提供一種PaaS模式。Amazon Machine Learning提供可視化的工具和向?qū)?,無須學習復雜的機器學習算法和技術,使用簡單的API即可讓用戶應用程序輕松獲得預測能力,而無須實現(xiàn)自定義預測生成碼或管理任何基礎設施。采用Amazon內(nèi)部使用的機器學習方法,非常容易擴展。而且,使用Amazon MachineLearning不需要對硬件或軟件事先投入資金,秩序按使用量付費。
另外,不得不提NVIDIA,這家老牌顯卡制造商也將未來方向瞄準了深度學習,于GTC2015、2016連續(xù)發(fā)布多款面向深度學習的GPU加速器硬件(Tian X、Tesla P100)、加速庫(cuDNN)和解決方案(DIGITS DevBox、DGX-1),為深度學習的普及和更大模型的支持起到推波助瀾的作用。
以上為國外情況,國內(nèi)情況又如何呢?
BAT在路上
百度是國內(nèi)較早開展深度學習研究的企業(yè),于2013年年初創(chuàng)立了百度深度學習實驗室(Institute of Deep Learning, IDL,http://idl.baidu.com/),斯坦福大學教授、Google大腦創(chuàng)始人AndrewNg隨后加入。IDL研究方向包括深度學習&機器學習、機器人、人機交互、3D視覺、圖像識別、語音識別等,同時開展了一系列深度學習相關的創(chuàng)新項目,如無人機、智能自行車DuBike、自動駕駛汽車、智能眼鏡BaiduEye等。
百度在深度學習計算平臺基礎設施建設方面一直走在國內(nèi)互聯(lián)網(wǎng)公司的前列,百度在ImageNet挑戰(zhàn)中取得的成績得益于其超級計算機Minwa(36個服務器節(jié)點,每個節(jié)點2個六核Xeon E5-2620和4個NVEDIA Tesla K40m GPU)。為了提高深度學習算法的計算速度,百度在GPU和CPU上做了很多優(yōu)化,發(fā)表了一些深度學習算法GPU加速的論文(雖然中間有點小插曲)。經(jīng)過這些工作,百度也意識到GPU、CPU在深度學習應用中的成本效率、能耗效率和目標間的差距。在充分考量各種芯片的特性后,可編程、低功耗并擁有超強并行計算能力的FPGA走進了百度工程師們的視野。百度開始嘗試用FPGA打造AI專有芯片,并成就了第一本AI專有芯片版百度大腦 - FPGA版百度大腦。這使得百度成為了全球最早將GPGA規(guī)模應用在人工智能領域的公司。
阿里巴巴作為電子商務巨頭,很早就看到了深度學習在商品檢索方面的應用價值,在阿里巴巴圖像搜索的領軍人物、阿里巴巴搜索事業(yè)部研究員華先勝的帶領下迅速將深度學習技術成功應用到手機淘寶圖像搜索業(yè)務 - 拍立淘中。2015年“雙11”當天,上千萬消費者使用了拍立淘功能,引導了數(shù)千萬元的銷售額。拍立淘上線一年以來,所覆蓋的類目范疇已經(jīng)從最開始的女裝,發(fā)展到目前的男女裝、鞋包、配飾、食品、數(shù)碼、家居、日用百貨、內(nèi)衣、瓶飲等十余個類目。與通用搜索主要依靠字節(jié)不同,圖像搜索備注要定義為“以圖搜圖”。據(jù)華先勝介紹,圖像搜索的第一步是訓練計算機進行圖像理解,也就是通過計算機將圖片中的要素,包括人像、顏色、紋理等具體特征以及深度學習產(chǎn)生的圖像描述,轉(zhuǎn)換為類似于文字的“視覺詞”,編成索引之后,才能再進行第二步 - 圖像搜索。圖像搜索仍有很多未知領域有待探索。在華先生看來,能推動圖像搜索下一步突破的關鍵有三點:深度學習、大數(shù)據(jù)分析和大量用戶使用反饋。環(huán)顧國內(nèi)外,似乎只有阿里巴巴能夠同時具備這三個條件。對于“拍立淘”的未來,華先勝表示,拍立淘將會拓展到更多領域,力爭成為人們獲取信息(包括購物、教育、娛樂、新聞、知識等)的一個快捷、有趣、有效的入口,而不僅僅是搜尋商品的入口。
阿里巴巴在基礎平臺建設方面起步雖晚,但發(fā)展迅速,利用裝備NVIDIA Tesla GPU的高性能計算機群,不盡完美之城拍立淘、搜索、OCR、綠網(wǎng)、神馬語音、iDST等內(nèi)部業(yè)務,還進一步在2015年10月14日云棲大會上正式宣布通過阿里云對外提供公共云上的HPC服務(https://iwww.aliyun.com/product/hpc),使普通用戶也有機會享受高性能計算平臺帶來的高效性和便利性。目前越來越多的中小企業(yè)選擇租用云端HPC服務器,而不是自建機房做繁雜冗長的運維工作。最新跡象G4配備了雙Tesla M40作為加速器,可大大提高深度學習應用的運行效率,基于Docker的快速環(huán)境部署大幅降低了客戶使用深度學習框架的門檻,可謂開箱即用。
騰訊擁有海量的社交關系數(shù)據(jù),在深度學習應用方面潛力巨大,目前主要應用為語音識別、圖像識別和廣告推薦。騰訊優(yōu)圖(BestImage,http://open.youtu.qq.com/)是騰訊旗下頂級的機器學習研發(fā)團隊,專注于圖像處理、模式識別、深度學習等方向,在人臉檢測、五官定位、人臉識別、圖像理解領域都積累了完整解決方案和領先的技術水平。
騰訊在深度學習基礎平臺方面經(jīng)歷多次升級逐步完善,在Mariana DNN、Mariana CNN、Mariana Cluster等基礎框架,在微信語音識別、微信圖像識別方面均已成功落地,在圖文類效果廣告點擊率提升方面也取得初步的應用。
星光閃耀
中國科學院計算所計算機體系結(jié)構(gòu)國家重點實驗室未來計算組陳云霽研究員領導的團隊提出了國際上首個深度神經(jīng)網(wǎng)絡處理器寒武紀1號(DianNao),通過高效的分塊處理和訪存優(yōu)化,能高效處理任意規(guī)模、任意深度人工神經(jīng)網(wǎng)絡,以不到通用處理器1/10的面積和功耗達到了100倍以上的神經(jīng)網(wǎng)絡處理速度,性能功耗比提升了1000倍。該項工作意味著,處理器結(jié)構(gòu)設計的創(chuàng)新,有望在未來時的手機移動終端具備谷歌大腦級別的認知處理能力。2014年12月,新推出的寒武紀2號神經(jīng)網(wǎng)絡處理器(DaDianNao)榮獲年度Micro最佳論文?!癉aDianNao”又有多項突破,性能繼續(xù)大幅度提升,與通用芯片和GPU相比,計算速度提高幾十倍,功耗只有十分之一,整體能效提高450倍。陳云霽透漏,這種芯片將用在國產(chǎn)手機上。“寒武紀”芯片執(zhí)行的是一種與通用計算完全不同的指令集 - 電腦語“DianNaoYu”。所謂指令集就是電腦“語言”,其直接面對大規(guī)模神經(jīng)元和突觸的處理,一條指令即可完成一組神經(jīng)元的處理。模擬實驗表明,“寒武紀”相對于傳統(tǒng)的執(zhí)行x86指令集的芯片,有兩個數(shù)量級的性能提升。與傳統(tǒng)的通用計算指令集相比,“電腦語”顯然更類似于人類大腦的學習方式,因此有人將其稱為“下一代人工智能技術”。“電腦語”被計算機體系結(jié)構(gòu)領域頂級國際會議IS-CA 2016接收,其評分在近300篇投稿中排名第一。陳天石研究員表示,“寒武紀”不是代替中央處理器的顛覆式革命。從目前的情況來看,它更像是一款針對智能認知等應用的專用芯片 - “我們的優(yōu)勢主要集中在人臉識別、聲音識別等人工智能方面。比如,傳統(tǒng)的手機或個人電腦主板上嵌入‘寒武紀’芯片后,將極大地提高處理這類任務的速度,并且降低能耗”。
科大訊飛股份有限公司(http://www.iflytek.com/)是一家專業(yè)從事智能語音及語言技術、人工智能技術研究、軟件及芯片產(chǎn)品開發(fā)、語音信息服務及電子政務系統(tǒng)集成的國家級骨干軟件企業(yè)。該公司的智能語音和新技術代表了世界最高水平,是我國產(chǎn)業(yè)化實體中在語音技術領域基礎研究時間最長、資產(chǎn)規(guī)模最大、歷屆評測成績最好、專業(yè)人才最多及市場占有率最高的公司。語音技術實現(xiàn)了人機語音交互,是人與機器之間的溝通變得像人與人溝通一樣簡單。此外,語音技術還包括口語評測、語音編碼、音色轉(zhuǎn)換、語音消噪和增強等技術,有著廣闊的應用空間??拼笥嶏w作為中國最大的智能語音技術提供商,在智能語音技術領域有著長期的研究積累,并在語音合成、語音識別、口語評測、自然語言處理等多項技術上擁有國際領先的成果。
企業(yè)熱是風向標
近兩年國內(nèi)利用深度學習技術的創(chuàng)業(yè)公司如雨后春筍般涌現(xiàn)。
商湯科技http://www.sense-time.com致力于引領人工智能核心“深度學習”技術突破,構(gòu)建人工智能、大數(shù)據(jù)分析行業(yè)解決方案。在人工智能產(chǎn)業(yè)興起的大背景下,商湯科技擁有在技術、人才、專利商多年的積累,聚集了一批出色的華人深度學習、計算機視覺科學家,以及來自于硅谷、百度、微軟、聯(lián)想等產(chǎn)業(yè)界領軍人物。在人臉識別、文字識別、人體識別、車輛識別、物體識別、圖像處理等前瞻性應用技術上,商湯科技均擁有核心原創(chuàng)技術和持續(xù)進行學術研發(fā)的潛力;在業(yè)務上,商湯集團深耕金融、移動互聯(lián)網(wǎng)、安防監(jiān)控三大行業(yè),已與中國移動、銀聯(lián)、京東、拉卡拉、華為、小米、新浪微博、科大訊飛、東方網(wǎng)力、英偉達等知名公司開展深度合作,推動行業(yè)產(chǎn)品智能化升級,開拓中國原創(chuàng)人工智能技術更多可能。
Face++(http://www.faceplusplus.com.cn/)是北京曠視科技(Megvii)有限公司旗下的新型視覺服務平臺,旨在提供簡單易用、功能強大、平臺兼容的新一代視覺服務。face++團隊專注于研發(fā)世界最好的人臉檢測、識別、分析和重建技術,通過融合機器視覺、機器學習、大數(shù)據(jù)挖掘及3D圖形學技術,致力于將最新、性能最好、使用最方便的人臉技術提供給廣大開發(fā)者和用戶。通過提供云端API、離線SDK,以及面向用戶的自主研發(fā)產(chǎn)品形式,將人臉識別技術廣泛應用到互聯(lián)網(wǎng)及移動應用場景中。
涂鴉(http://www.airtake.me/)成立于2014年,專注于云服務,致力于通過智能云為廠商提供有普通硬件轉(zhuǎn)變?yōu)橹悄苡布耐暾夹g解決方案分布式架構(gòu)的全球部署,每日超過10TB和千萬人次的數(shù)據(jù)吞吐量原生圖像識別與機器學習能力。涂鴉在云計算技術、硬件生產(chǎn)以及海外市場運營方面有豐富的經(jīng)驗。涂鴉在技術上獲得了阿里云和亞馬遜云服務的支持。
格靈深瞳(http://www.deepglint.com/)成立于2013年年初,是全球第一家采用三維計算機視覺技術,將人工智能應用于商業(yè)領域的科技公司,致力于讓計算機向人一樣看懂這個世界,并且把這一技術率先用在了安防監(jiān)控和智能交通領域。讓計算機看懂世界,是格靈深瞳的使命。因為感知技術是所有存在與真實世界里的人工智能的信息入口。近年來,深度學習和深度視覺成為了計算機視覺領域最偉大的創(chuàng)新和進展。格靈深瞳是全世界最早把這些技術商業(yè)化的公司之一。結(jié)合深度學習和深度視覺技術建造視覺傳感器網(wǎng)絡,有效地賦予視頻監(jiān)控、智能交通以及智能駕駛等領域全新的價值。
Dress+(http://www.dress-plus.com/)成立于2014年,提供在線視覺識別技術與社交網(wǎng)絡搜索時尚商品的服務。衣+邊看邊買搜索引擎是領先的商品圖像特征建模方案,基于深度學習和傳統(tǒng)方法融合商品圖像特征建模算法,即刻畫了高層語義特征,又兼顧了底層圖像特征,大大加強了衣+引擎對同款和相似商品的檢索能力,幫助用戶快速找到感興趣的商品圖像。使用衣+獨有的高校特征量化壓縮算法,在保證檢索效果和原始特征基本一致的條件下可以將單條記錄特征壓縮到1kb以內(nèi),極大地提高了搜索引擎的可擴展性。衣+高實時性搜索引擎在單機單線程條件下完成2千萬條目的檢索時間小于1s,通過并行優(yōu)化的系統(tǒng)支持單機億級條目的檢索時間小于1s。
Linkface(http://www.link-face.cn/)是一家人臉識別技術研發(fā)公司,曾取得FDDB人臉檢測公開測試世界第一、300-WBenchmark準確率世界第一、LFW人臉識別準確率大99.5%以上等一系列成績。Linkface開發(fā)了基于深度學習的人臉檢測創(chuàng)新算法,無論孤身一人還是置身人群,抑或是處在側(cè)臉、遮擋、模糊等場景中,均能進行精準檢測;Linkface可準確識別出眼睛、鼻子等人臉關鍵位置,在表情不同、姿態(tài)多樣、遮擋模糊等狀態(tài)下均可進行精準定位;在監(jiān)控、門禁、自拍、人證比對等場景中,Linkface的識別算法能夠提供精準、便捷的識別方案。