這是AI+教育的入門科普文系列第一篇,敬請不要期待第2/3/4篇。
作為一個物理老師,一個PM或者說一個硬件工程師,我學(xué)過約40小時的AI知識,總計10本書+10多個網(wǎng)站+2個不同背景的人閑聊,在AI+教育領(lǐng)域尚在入門階段,歡迎各路大神來揪其中的不靠譜,一起UP。
AI是個啥?
是個啥呀是個啥?曾經(jīng)有個老師說是機器學(xué)習(xí),攻城獅老公說是概率,兩種說法都叫我將信將疑,囫圇整合下,我理解的AI,或者說人工智能是:
在給力的計算芯片上,算法通過“學(xué)習(xí)”數(shù)據(jù),完成自我進化,形成模型,通過模型讓相關(guān)聯(lián)的東東達成一定概率的匹配,最終達到模擬、延伸或擴展人的智能的目的。
比如說,在一次遠程公開課上,王老師不僅僅需要給臺下的30個小學(xué)生講課,還要通過智慧屏遠程連接山村里的50個孩子,他是第一次給村里的孩子上課,卻能夠叫出每個孩子的名字,因為通過學(xué)習(xí)海量有批注的數(shù)據(jù),算法完成了自我進化,構(gòu)建出一個模型,通過該模型,它將視頻中的人像和數(shù)據(jù)庫中的數(shù)據(jù)做對比,實現(xiàn)了視頻中孩子和姓名的匹配,王老師可以在教室里的大屏上看到孩子和他們的姓名。
提到人工智能,我們常常繞不開如下關(guān)鍵詞:

其中機器學(xué)習(xí)是人工智能的一種途徑或子集,也是人工智能的核心,它從數(shù)據(jù)出發(fā),通過復(fù)雜的算法和運算能力,尋找一切數(shù)據(jù)背后的規(guī)律,它強調(diào)的是數(shù)據(jù)的學(xué)習(xí)。簡單的機器學(xué)習(xí)算法的性能,很大程度上依賴于人為給定數(shù)據(jù)的特征,比如說貓,它的特征有長著毛茸茸的毛、頂著一對三角形的的耳朵等,特征的選取決定了機器學(xué)習(xí)的效果。
而深度學(xué)習(xí)算法可以自己提取數(shù)據(jù)特征。
總之,人工智能是技術(shù),是工具,也是新的產(chǎn)品設(shè)計思維邏輯。它有三個要點:算力、算法和算據(jù)。
1 算力
也就是說計算能力,這種能力用于支持機器學(xué)習(xí)的訓(xùn)練和推算環(huán)節(jié),其中推算環(huán)節(jié)根據(jù)芯片的位置,又可以分為云端推斷和設(shè)備端推斷。
根據(jù)定制化程度,人工智能芯片又被分為通用芯片、半定制化芯片和全定制化芯片三種。
①通用型:CPU、GPU、TPU等模塊陣列,它們可以處理幾乎所有類型任務(wù),價格相對較高且運算速度相對較低。
②半定制化:FPGA(Field Programmable Gate Array)可編程門陣列,是一種集成大量門電路和存儲器的芯片,可以通過配置文件來定義門電路及存儲器間的走線,從而實現(xiàn)特定功能。其本質(zhì)是用硬件實現(xiàn)軟件算法。針對小計算量、大批次的計算,性能優(yōu)于GPU,另外它有低延遲的特點,適合在推斷環(huán)節(jié)支撐海量的用戶實時計算并發(fā)請求。
③全定制化:ASIC(Application Specific Integrated Circuits)應(yīng)用專用集成電路,是為專門目的而設(shè)計的集成電路,設(shè)計成本高,周期長,但運算效率高,功耗小,量產(chǎn)時,單個芯片的造價低。
結(jié)合FPGA和ASIC的特點,在實際應(yīng)用時,我們可以先將芯片原型以FPGA形式做出來,在市場中進行充分的測試和調(diào)整,然后再進行ASIC生產(chǎn)。
2 算法
算法是指解決方案的準(zhǔn)確而完整的描述,是一系列解決問題的清晰指令,它代表著用系統(tǒng)的方法描述解決問題的策略機制。
有一個與之容易混淆的名詞叫“模型”,它是指通過數(shù)據(jù)對算法進行訓(xùn)練后生成的“中間件”,當(dāng)有新的數(shù)據(jù)輸入時,有相應(yīng)的結(jié)果輸出,它和算法的關(guān)系如下:

①根據(jù)模型訓(xùn)練方式不同,算法可以分為如下幾類:
監(jiān)督學(xué)習(xí)可以用于識別圖片中的動物是貓還是狗,訓(xùn)練集中的圖片要包括明確的貓或狗的標(biāo)簽;而無監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)沒有標(biāo)簽,比如說在搜索引擎中,借助無監(jiān)督學(xué)習(xí)將來自不同類型網(wǎng)站的相似的網(wǎng)頁聚類在一起;半監(jiān)督學(xué)習(xí)是是在無監(jiān)督學(xué)習(xí)中混入一些有標(biāo)簽的數(shù)據(jù),其本質(zhì)上更接近人類的日常學(xué)習(xí),可以獲得更好的模型質(zhì)量。
強化學(xué)習(xí)是讓計算機通過不斷嘗試,從反饋中學(xué)習(xí)如何在特定的情景下,選擇可以得到最大回報的行動。應(yīng)用案例如AlphaGo,通過讓計算機不斷下圍棋的過程中進行打分,不斷更新行為準(zhǔn)則,最終掌握下圍棋的技能并得到高分。
深度學(xué)習(xí)本質(zhì)上是讓計算機用層次化的概念體系來理解和學(xué)習(xí),每個概念通過相對簡單的概念之間的關(guān)系定義,進而實現(xiàn)通過簡單概念學(xué)習(xí)復(fù)雜概念。它借鑒了腦神經(jīng)科學(xué)的實現(xiàn)手段,但與人腦差距很大:人可以從少量樣本中總結(jié)規(guī)律,而深度學(xué)習(xí)對數(shù)據(jù)的量、數(shù)據(jù)的特征維度和特征在空間中的分布情況等條件都有較高的要求。
通過深度學(xué)習(xí)可以替代手工獲取特征。典型的應(yīng)用如電商平臺的商品推薦引擎,社交網(wǎng)絡(luò)平臺向用戶推薦他關(guān)心的新聞、電影、可能需要的專家建議等。
遷移學(xué)習(xí)是把已經(jīng)訓(xùn)練好的模型參數(shù),遷移到新的模型上幫助新模型訓(xùn)練的學(xué)習(xí)方法。
②根據(jù)要解決的任務(wù)算法又可以分為:
二分類,也就是說二選一任務(wù);
多分類,如視覺識別、手寫識別;
回歸,用于預(yù)測具體的數(shù)值,如預(yù)測明天的溫度、濕度、PM2.5指數(shù)等;
聚類,如社交軟件根據(jù)用戶的興趣愛好以及在線行為數(shù)據(jù)對人群進行劃分;
異常檢測,對數(shù)據(jù)中存在的不正?;蚍堑湫偷膫€體進行檢測和標(biāo)記。
選擇算法時,我們需要在選擇算法之前分析一些因素,減少算法選擇的范圍,需要考慮:
(1)數(shù)據(jù)量的大小、數(shù)據(jù)質(zhì)量和數(shù)據(jù)本身的特征。
(2)具體業(yè)務(wù)場景中要解決的問題本質(zhì)是什么?
(3)可以接受的計算時間是什么?
(4)算法的精度要求。
3 算據(jù)
隨著計算資源、開放訓(xùn)練平臺的使用門檻越來越低,算力將成為如水電煤一般的基礎(chǔ)設(shè)施,而算據(jù)對行業(yè)的縱深度要求極高。未來,數(shù)據(jù)無疑將成為人工智能領(lǐng)域的競爭壁壘。
而提到數(shù)據(jù),不得不關(guān)聯(lián)到熱詞“大數(shù)據(jù)”,第2篇的主題是“教育大數(shù)據(jù)”:
大數(shù)據(jù)的“4V”是什么?
教育數(shù)據(jù)從哪里來?
又該如何收集處理它們?
...
敬請不要期待。