在科技飛速發(fā)展的今天,人工智能(AI)已不再是一個(gè)陌生的詞匯。從我們?nèi)粘J褂玫闹悄苷Z音助手,到為我們推薦感興趣內(nèi)容的算法,AI早已悄然融入我們生活的方方面面。當(dāng)我們深入了解AI領(lǐng)域時(shí),常常會(huì)被一些專業(yè)術(shù)語搞得暈頭轉(zhuǎn)向,這些術(shù)語就像行業(yè)“黑話”,讓人摸不著頭腦。今天,就讓我們一起來揭開這些AI黑話的神秘面紗。
一、基礎(chǔ)概念類黑話
1.1 AI(Artificial Intelligence)
AI即人工智能,它指的是由計(jì)算機(jī)系統(tǒng)執(zhí)行的通常需要人類智能才能完成的任務(wù),像視覺識(shí)別、語言理解、決策制定等,其目的是讓機(jī)器能夠像人類一樣感知、學(xué)習(xí)、推理和決策 。比如,我們使用的智能掃地機(jī)器人,它能自動(dòng)識(shí)別房間的布局,規(guī)劃清掃路線,避開障礙物,這背后就運(yùn)用了AI技術(shù)。
1.2 機(jī)器學(xué)習(xí)(Machine Learning)
機(jī)器學(xué)習(xí)是AI的一個(gè)分支,它通過算法讓計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)中學(xué)習(xí)模式和規(guī)律,從而能夠?qū)π聰?shù)據(jù)進(jìn)行預(yù)測或決策。比如,電商平臺(tái)通過分析用戶的購買歷史數(shù)據(jù),為用戶推薦他們可能感興趣的商品,這就是機(jī)器學(xué)習(xí)在實(shí)際生活中的應(yīng)用。常見的機(jī)器學(xué)習(xí)方法包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。監(jiān)督學(xué)習(xí)就像是老師手把手教學(xué)生,給學(xué)生提供帶有正確答案的學(xué)習(xí)資料(標(biāo)注數(shù)據(jù)),讓學(xué)生學(xué)習(xí)如何根據(jù)輸入數(shù)據(jù)得出正確的輸出;無監(jiān)督學(xué)習(xí)則更像是學(xué)生自己探索學(xué)習(xí),沒有明確的答案,主要是從數(shù)據(jù)中發(fā)現(xiàn)潛在的模式和結(jié)構(gòu);強(qiáng)化學(xué)習(xí)有點(diǎn)像游戲闖關(guān),智能體通過與環(huán)境進(jìn)行交互,根據(jù)環(huán)境反饋的獎(jiǎng)勵(lì)或懲罰信號(hào)來不斷調(diào)整自己的行為,以達(dá)到獲得最大獎(jiǎng)勵(lì)的目的 。
1.3 深度學(xué)習(xí)(Deep Learning)
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域,基于人工神經(jīng)網(wǎng)絡(luò)的深度結(jié)構(gòu)進(jìn)行學(xué)習(xí),能夠自動(dòng)從大量數(shù)據(jù)中提取特征,適用于圖像識(shí)別、語音識(shí)別、自然語言處理等復(fù)雜任務(wù)。它的網(wǎng)絡(luò)結(jié)構(gòu)就像一個(gè)多層的蛋糕,每一層都對(duì)輸入的數(shù)據(jù)進(jìn)行不同層次的特征提取。以圖像識(shí)別為例,第一層可能提取圖像的邊緣、線條等簡單特征,隨著層數(shù)的增加,逐漸提取出更復(fù)雜、更抽象的特征,比如物體的形狀、類別等 。像我們常用的人臉識(shí)別技術(shù),就是深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域的典型應(yīng)用。
1.4 神經(jīng)網(wǎng)絡(luò)(Neural Network)
神經(jīng)網(wǎng)絡(luò)是一種模仿人腦神經(jīng)元結(jié)構(gòu)和功能的計(jì)算模型,由大量的神經(jīng)元節(jié)點(diǎn)和連接它們的邊組成,通過調(diào)整連接的權(quán)重來學(xué)習(xí)數(shù)據(jù)中的模式,是深度學(xué)習(xí)的基礎(chǔ)。簡單來說,它就像一個(gè)復(fù)雜的神經(jīng)元網(wǎng)絡(luò),每個(gè)神經(jīng)元就像是一個(gè)小的計(jì)算單元,它們相互連接,通過傳遞和處理信息來完成各種任務(wù)。當(dāng)我們輸入數(shù)據(jù)時(shí),數(shù)據(jù)會(huì)在這個(gè)網(wǎng)絡(luò)中傳遞,經(jīng)過各個(gè)神經(jīng)元的處理,最終輸出我們想要的結(jié)果 。
二、模型相關(guān)黑話
2.1 大語言模型(Large Language Model,LLM)
大語言模型是一種基于海量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型,它能夠理解和生成自然語言文本,可以完成復(fù)雜對(duì)話、文本創(chuàng)作、知識(shí)問答等任務(wù) 。我們熟知的ChatGPT、文心一言等都是大語言模型的代表。你可以把它想象成一個(gè)知識(shí)淵博的超級(jí)助手,它讀過海量的書籍、文章,掌握了豐富的知識(shí),當(dāng)你向它提問或請(qǐng)求幫助時(shí),它能快速理解你的需求,并給出準(zhǔn)確、詳細(xì)的回答。比如,你讓它寫一篇關(guān)于旅游的文章,它能迅速組織語言,從景點(diǎn)介紹、美食推薦到旅游攻略,為你提供一篇內(nèi)容豐富的文章。
2.2 參數(shù)(Parameter)
參數(shù)可以理解成大模型的“腦細(xì)胞網(wǎng)絡(luò)”,是模型內(nèi)部可調(diào)節(jié)的變量數(shù)量,決定模型復(fù)雜度和學(xué)習(xí)能力。參數(shù)越多,模型能夠?qū)W習(xí)到的知識(shí)和模式就越多,其學(xué)習(xí)能力就越強(qiáng),但同時(shí)也需要更多的計(jì)算資源和數(shù)據(jù)來訓(xùn)練。舉個(gè)例子,Deepseek-R有671B參數(shù),對(duì)比人類大腦就可想象成在人腦中植入6710億個(gè)神經(jīng)元 ,如此龐大的參數(shù)數(shù)量,使得模型具備了強(qiáng)大的學(xué)習(xí)和處理能力。
2.3 Token
Token是文本的離散化表示,類似于人類語言中的“詞匯片段”,其粒度由分詞算法決定。比如,“人工智能”可能被分詞為“人工”和“智能”或保留為單一Token。Token是大語言模型處理文本的最小語義單位,它將原始文本轉(zhuǎn)化為模型能夠識(shí)別的數(shù)字編碼,是語言理解與生成的基礎(chǔ)。若將它放在物理世界里作比較的話,Token就是大模型世界里的“原子” ,所有的文本處理都是基于這些“原子”進(jìn)行的。
2.4 預(yù)訓(xùn)練(Pre - training)與微調(diào)(Fine - tuning)
預(yù)訓(xùn)練是大型語言模型通過自監(jiān)督學(xué)習(xí)在大規(guī)模無標(biāo)注文本數(shù)據(jù)上訓(xùn)練的過程,其核心目標(biāo)是讓模型學(xué)習(xí)通用的語言表征能力。就好比小孩上學(xué)前讀百科全書,首先是輸入海量信息,不“挑食”什么都看;其次自編練習(xí)題;第三步練就“通用腦回路”,不當(dāng)專家,而是建立基礎(chǔ)認(rèn)知。通過預(yù)訓(xùn)練,模型能夠?qū)W習(xí)到語言的通用知識(shí)、語法結(jié)構(gòu)、語義表達(dá)等。
微調(diào)則是基于預(yù)訓(xùn)練模型,使用特定領(lǐng)域或任務(wù)的標(biāo)注數(shù)據(jù)進(jìn)一步調(diào)整參數(shù),使其適配下游任務(wù)的過程。微調(diào)的本質(zhì)是遷移學(xué)習(xí),即利用預(yù)訓(xùn)練階段習(xí)得的通用知識(shí),通過少量目標(biāo)數(shù)據(jù)的針對(duì)性訓(xùn)練,快速提升模型在特定場景下的性能。打個(gè)比方,預(yù)訓(xùn)練模型就像是一個(gè)全能選手,而微調(diào)就像是讓這個(gè)全能選手針對(duì)某個(gè)特定項(xiàng)目進(jìn)行專項(xiàng)訓(xùn)練,使其在這個(gè)項(xiàng)目上表現(xiàn)得更加出色。比如,一個(gè)經(jīng)過預(yù)訓(xùn)練的通用語言模型,在經(jīng)過醫(yī)療領(lǐng)域的文本數(shù)據(jù)微調(diào)后,就可以更好地處理醫(yī)療相關(guān)的問答、診斷輔助等任務(wù) 。
三、技術(shù)架構(gòu)與算法黑話
3.1 Transformer架構(gòu)
Transformer是一種廣泛應(yīng)用于自然語言處理任務(wù)的神經(jīng)網(wǎng)絡(luò)架構(gòu),因其自注意力機(jī)制而能夠高效處理序列數(shù)據(jù)中的長距離依賴關(guān)系,成為自然語言處理領(lǐng)域的主流架構(gòu) 。Transformer最初由谷歌在2017年的一篇論文中提出,我們可以把它認(rèn)為是一位“超級(jí)翻譯官”,它能夠同時(shí)處理輸入序列中的所有單詞,并根據(jù)上下文關(guān)系進(jìn)行理解和生成。其架構(gòu)的核心組件“自注意力機(jī)制”,能夠根據(jù)輸入序列中不同位置的關(guān)系,計(jì)算出每個(gè)位置的“注意力權(quán)重”,從而更好地理解上下文信息 。簡單來說,以前的模型在處理長文本時(shí),很難記住前面的內(nèi)容,而Transformer架構(gòu)通過自注意力機(jī)制,讓模型能夠關(guān)注到文本的不同部分,更好地理解整個(gè)文本的含義。
3.2 CNN(Convolutional Neural Network)
CNN即卷積神經(jīng)網(wǎng)絡(luò),是一種深度學(xué)習(xí)網(wǎng)絡(luò),廣泛應(yīng)用于圖像和視頻識(shí)別中,其核心是卷積層,能夠自動(dòng)提取圖像的局部特征。在圖像識(shí)別中,它可以通過卷積層中的卷積核在圖像上滑動(dòng),提取圖像的邊緣、紋理、形狀等各種特征,然后通過池化層對(duì)特征進(jìn)行壓縮,減少數(shù)據(jù)量,最后通過全連接層進(jìn)行分類或其他任務(wù)的輸出。比如,在識(shí)別貓和狗的圖像時(shí),CNN可以學(xué)習(xí)到貓和狗的不同特征,從而準(zhǔn)確地判斷出圖像中的動(dòng)物是貓還是狗 。
3.3 RNN(Recurrent Neural Network)
RNN即循環(huán)神經(jīng)網(wǎng)絡(luò),它是一種專門處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),能夠逐幀解析語音信號(hào)生成文本,甚至預(yù)測股價(jià)波動(dòng)趨勢。與其他神經(jīng)網(wǎng)絡(luò)不同,RNN具有記憶能力,它可以記住之前處理過的信息,并將這些信息用于當(dāng)前的決策。在處理文本時(shí),它會(huì)依次讀取每個(gè)單詞,并根據(jù)之前讀取的單詞和當(dāng)前的單詞來理解文本的含義。但是,傳統(tǒng)的RNN在處理長序列數(shù)據(jù)時(shí)會(huì)遇到梯度消失或梯度爆炸的問題,為了解決這個(gè)問題,人們又提出了LSTM(長短期記憶網(wǎng)絡(luò))和GRU(門控循環(huán)單元)等改進(jìn)版本 。
四、應(yīng)用與發(fā)展相關(guān)黑話
4.1 AIGC(Artificial Intelligence Generated Content)
AIGC即人工智能生成內(nèi)容,指利用AI技術(shù)自動(dòng)生成的文本、圖像、音頻或視頻內(nèi)容,可應(yīng)用于內(nèi)容創(chuàng)作、廣告、娛樂等領(lǐng)域,以提高創(chuàng)作效率和個(gè)性化內(nèi)容。比如,現(xiàn)在一些AI繪畫工具,用戶只需要輸入一些描述性的文字,就能生成一幅精美的畫作;還有一些AI寫作助手,可以幫助作者快速生成文章大綱、段落內(nèi)容等。AIGC的出現(xiàn),極大地改變了內(nèi)容創(chuàng)作的方式,為創(chuàng)作者提供了更多的靈感和可能性 。
4.2AGI(Artificial General Intelligence)
AGI即通用人工智能,指的是能夠執(zhí)行任何智能任務(wù)的AI系統(tǒng),與人類智能相當(dāng),具有自主學(xué)習(xí)、推理和適應(yīng)新任務(wù)的能力。目前,雖然AI在很多領(lǐng)域都取得了顯著的進(jìn)展,但距離真正的AGI還有很大的差距。AGI不僅要具備強(qiáng)大的計(jì)算和學(xué)習(xí)能力,還要能夠理解情感、解決跨領(lǐng)域問題,甚至超越人類創(chuàng)造力 。一旦實(shí)現(xiàn)AGI,它將對(duì)人類社會(huì)產(chǎn)生深遠(yuǎn)的影響,可能會(huì)改變我們的生活、工作和學(xué)習(xí)方式。
4.3 智能體(Agent)
智能體是在AI中,指能夠感知環(huán)境并做出決策以實(shí)現(xiàn)特定目標(biāo)的系統(tǒng)或?qū)嶓w,它可以是軟件程序,也可以是具有物理形態(tài)的機(jī)器人 。比如,自動(dòng)化任務(wù)的軟件智能體可以根據(jù)預(yù)設(shè)的規(guī)則和條件,自動(dòng)完成一些重復(fù)性的工作;客戶服務(wù)的聊天機(jī)器人也是一種智能體,它能夠理解用戶的問題,并提供相應(yīng)的回答和解決方案。OpenAI將智能體定義為“以大語言模型為大腦驅(qū)動(dòng)的系統(tǒng),具備自主理解、感知、規(guī)劃、記憶和使用工具的能力,能夠自動(dòng)化執(zhí)行完成復(fù)雜任務(wù)的系統(tǒng)” 。我們可以把智能體與大語言模型形象地比作生物體與其大腦,智能體有手有腳,可以自己干活自己執(zhí)行,而大語言模型就是它的大腦,為它提供決策和指導(dǎo)。
通過對(duì)這些AI黑話的解讀,相信大家對(duì)AI領(lǐng)域有了更深入的理解。當(dāng)然,AI領(lǐng)域的知識(shí)遠(yuǎn)不止這些,隨著技術(shù)的不斷發(fā)展,還會(huì)有新的概念和術(shù)語出現(xiàn)。希望大家能夠保持好奇心,不斷學(xué)習(xí),跟上AI發(fā)展的步伐,更好地利用AI技術(shù)為我們的生活和工作服務(wù)。