最近工作與大模型息息相關,一入AI深似海,大模型產(chǎn)業(yè)日新月異。毫不夸張的說我上個月才做的技術調研,這個月就已經(jīng)過時了,好幾次在隔壁部門聽見同事談論大模型相關問題,走進聽是聽見了但仿佛在說外星語。大模型領域有很多專業(yè)詞匯,比如什么AGI、AIGC、多模態(tài)、Token、RAG、COT、SFT、LORA等等,對非這個行業(yè)從業(yè)者來說,初次見到通常不明所以,特此在這篇文章里總結工作上用到的及調研過的一些AI領域專業(yè)術語,涵蓋基礎概念、機器學習&深度學習、NLP、多模態(tài)、智能體等多個類別
基礎概念
| 概念 | 釋義 |
|---|---|
| LLM(大語言模型, Large Language Model) | 基于海量文本數(shù)據(jù)訓練的深度學習模型,如GPT系列、BERT等,能夠理解和生成自然語言文本,能夠進行復雜對話、文本創(chuàng)作等任務。 |
| AGI(通用人工智能, Artificial General Intelligence) | 這是AI研究的理想目標,追求創(chuàng)造能像人類一樣學習新技能、解決廣泛問題的智能體,目前仍處于理論探索和初步實踐階段。 |
| AIGC (人工智能生成內容) | 利用AI技術生成的各種內容,從文本、圖像到視頻,利用算法創(chuàng)造新穎、個性化的內容,如AI藝術畫作或定制文章。 |
| Prompt(提示詞) | 在AI大模型中用于引導模型生成特定類型輸出的上下文信息或指令,例如,告訴模型“寫一篇科幻故事”。 |
| 提示工程(Prompt Engineering) | 設計和優(yōu)化輸入提示以獲得所需模型輸出的過程,涉及精心設計輸入提示,以優(yōu)化模型輸出的準確性、創(chuàng)意或特定風格,是提高AI大模型響應質量的關鍵策略。 |
| 多模態(tài)(Multimodal) | 文本、圖像、音頻等都是一種模態(tài),多模態(tài)指能夠處理文本、圖像、音頻等多種類型數(shù)據(jù)的模型,實現(xiàn)對多模態(tài)信息的綜合理解和分析。 |
| 推理(Inference) | 大模型的推理(Inference)是指使用已經(jīng)訓練好的模型進行實際應用,生成預測或輸出結果的過程。例如大模型根據(jù)問題生成答案,根據(jù)文本描述生成圖片等。 |
| 涌現(xiàn)(Emergence) | 指的是系統(tǒng)中新的性質、模式或行為在更簡單的組件相互作用下自發(fā)形成的現(xiàn)象。 |
| 對齊 | AI價值對齊是指讓大模型的能力和行為跟人類的價值、真實意圖和倫理原則相一致,確保人類與人工智能協(xié)作過程中的安全與信任。 |
| Token | 通常指的是文本或數(shù)據(jù)中的一個基本單元或符號,在自然語言處理中,單詞是最常見的 token。例如,“你好,世界!”會被分解為“你”、“好”、“,”、“世界”和“!”這樣的token,便于機器理解和處理。 |
| 智能體(Agent) | 在環(huán)境中感知、思考并采取行動的自主AI系統(tǒng)。 |
| 世界模型 | 指AI系統(tǒng)內部構建的對現(xiàn)實世界的抽象認知模型,用于預測、規(guī)劃和決策,是實現(xiàn)高級人工智能的關鍵組成部分。 |
| 大模型幻覺 | 幻覺是指大型語言模型生成的內容看似合理但實際上不準確或虛構的信息。原因是盡管模型可以生成符合語言結構的文本,但它們并不具備真正的理解能力,只是基于概率生成下一個詞語。 |
| 具身智能 | 擁有物理實體的智能體(如機器人),通過與環(huán)境的互動學習和適應,實現(xiàn)更接近生物體的智能表現(xiàn)。 |
| 端到端(End-to-End,簡稱E2E) | 指的是一個系統(tǒng)或模型能夠直接提供從輸入數(shù)據(jù)到輸出數(shù)據(jù)的解決方案,而不是通過傳統(tǒng)的分模塊處理方式 |
機器學習
| 概念 | 釋義 |
|---|---|
| 機器學習 (Machine Learning, ML) | AI的子領域,讓計算機能夠從經(jīng)驗中學習并提升任務執(zhí)行能力。就像一個孩子通過不斷嘗試和反饋學會騎自行車,ML模型通過分析大量數(shù)據(jù)和調整內部規(guī)則,逐步提高其預測或決策的準確性。 |
| 深度學習(Deep Learning) | 這是機器學習的一個分支,通過構造多層神經(jīng)網(wǎng)絡來模擬人類大腦的深層處理機制,能夠自動提取數(shù)據(jù)中的復雜特征,比如在人臉識別中區(qū)分眼睛、鼻子等細微特征,進而實現(xiàn)高度精確的分類或預測。 |
| Transformer | 這是一種革命性的神經(jīng)網(wǎng)絡架構,通過自注意力機制有效分析序列數(shù)據(jù),解決了長距離依賴問題,是大模型的核心架構 |
| 神經(jīng)網(wǎng)絡(Neural Network) | 神經(jīng)網(wǎng)絡是人工智能領域的核心概念之一,模仿人腦的結構和功能,用來解決復雜的計算和模式識別問題。它們由許多稱為“神經(jīng)元”或“節(jié)點”的簡單計算單元組成,這些單元互相連接形成網(wǎng)絡。每個神經(jīng)元對輸入信息做簡單運算后,將信號傳給下一個神經(jīng)元,層層傳遞,最終完成復雜的計算任務,如圖像識別或語音理解。 |
| CNN(卷積神經(jīng)網(wǎng)絡, Convolutional Neural Network) | 特別設計用于圖像識別的“視覺偵探”。它通過一系列“卷積層”工作,這些層能夠自動檢測圖像中的邊緣、紋理等基礎特征,并逐漸構建出更復雜的圖像理解,比如識別一只貓是否在圖片中,即使它的姿態(tài)各異。 |
| RNN(循環(huán)神經(jīng)網(wǎng)絡, Recurrent Neural Network) | 時間序列數(shù)據(jù)的“記憶大師”。與傳統(tǒng)神經(jīng)網(wǎng)絡不同,RNN具有循環(huán)結構,使其能夠處理如語言、股票價格等序列數(shù)據(jù),在每個時間點考慮之前的信息,這使得它在預測未來事件或理解文本上下文時非常有效。 |
| GPT(Generative Pre-trained Transformer) | 作為另一款基于Transformer的模型,GPT專注于生成連貫、有創(chuàng)意的文本,從文章寫作到故事構思,它都能根據(jù)初始提示產(chǎn)出令人驚嘆的續(xù)篇,展示了強大的語言生成能力。 |
| BERT(Bidirectional Encoder Representations from Transformers) | 自然語言處理領域的“雙向翻譯官”。BERT利用Transformer架構學習文本的雙向上下文信息,意味著它能同時理解一個詞在句子前后的含義,從而在問答、情感分析等任務中表現(xiàn)出色。 |
| 知識蒸餾(Knowledge Distillation) | 通過讓小模型學習大模型的決策過程和輸出,就像一位經(jīng)驗豐富的導師將其知識濃縮傳授給徒弟,從而在減少計算資源的同時保持高性能。 |
| 預訓練 (Pre-training) | 在特定任務的數(shù)據(jù)上先訓練模型,獲取一般語言知識,之后再針對具體任務微調。 |
| 微調 (Fine-tuning) | 在預訓練模型的基礎上,針對特定任務進行額外訓練的過程。 |
| 參數(shù)(Parameter) | 是指模型中的可訓練變量,這些變量決定了模型的行為和性能。具體來說,參數(shù)通常是神經(jīng)網(wǎng)絡中的權重和偏置,它們在訓練過程中通過梯度下降等優(yōu)化算法進行更新。參數(shù)量是衡量模型規(guī)模的一個重要指標。如Llama 7B,表示擁有70億參數(shù)量。 |
| 權重(Weights) | 連接神經(jīng)元的權重是最常見的參數(shù)。每個權重決定了一個輸入信號對輸出信號的影響程度。 |
| 生成模型(Generative Model) | 這類模型能夠基于已知數(shù)據(jù)模式生成新的數(shù)據(jù)實例,包括文本、圖像等,展現(xiàn)創(chuàng)造性輸出能力,如GPT-3。 |
| 擴散模型(Diffusion Model) | 這是一種創(chuàng)意十足的生成模型,想象一下將一滴墨水在水中慢慢擴散開來,最終形成圖案的過程,但這里的“墨水”變成了數(shù)據(jù),如圖像、聲音或文本。通過模擬物理世界中的擴散現(xiàn)象,它從隨機噪聲開始,一步步“澄清”出清晰的內容,尤其擅長創(chuàng)造細膩的視覺藝術和復雜的數(shù)據(jù)結構。 |
| 模型量化(Model Quantization) | 減少模型存儲和計算需求的技術,通過降低參數(shù)精度,如將32位浮點數(shù)轉為8位整數(shù),實現(xiàn)模型瘦身。 |
| Token | 通常指的是文本或數(shù)據(jù)中的一個基本單元或符號,在自然語言處理中,單詞是最常見的 token。例如,“你好,世界!”會被分解為“你”、“好”、“,”、“世界”和“!”這樣的token,便于機器理解和處理。 |
| Tokenizer | 用于將連續(xù)的文本序列(如句子或段落)分割成更小單位的工具或算法,例如單詞、短語或符號,這些單元通常稱為 "token"。 |
| Embedding(嵌入) | 將文本轉化數(shù)值向量的技術,便于機器處理,例如,將“貓”表示為一個100 維的向量 [0.21, -0.34, 0.65, ...],這個向量捕捉了“貓”的語義信息。 |
| 上下文窗口 (Context Window) | 語言模型處理文本時考慮的前后詞元范圍,用于捕捉文本的語境信息。較大的窗口提供更豐富語義,幫助生成連貫、準確的文本,避免歧義,改善上下文依賴處理。例如,GPT-4 Turbo的128k Token上下文窗口讓它能生成高度相關和細膩的回復。 |
| MoE(Mixture of Experts) | 一種在深度學習中使用的模型架構,旨在提高模型的性能和效率。MoE模型通過將不同的子模型(稱為“專家”)組合在一起,每個專家專門處理特定的輸入特征或任務,從而實現(xiàn)更好的泛化能力和計算效率。 |
| 數(shù)據(jù)標注 | 是指為機器學習和人工智能模型準備訓練數(shù)據(jù)時的過程,即為數(shù)據(jù)集中的樣本添加標簽、標注或注釋,以便模型能夠理解和學習數(shù)據(jù)的含義和特征。 |
| 數(shù)據(jù)清洗(Data Cleaning) | 是對數(shù)據(jù)集進行詳細檢查和修正的過程,旨在提升數(shù)據(jù)的質量和可靠性。這一過程專注于識別并糾正數(shù)據(jù)中的錯誤、不完整信息、不一致性及冗余現(xiàn)象 |
| 練丹 | 在機器學習領域,指訓練大規(guī)模的神經(jīng)網(wǎng)絡模型,特別是預訓練語言模型,如GPT、BERT等。這個過程需要大量的數(shù)據(jù)、算力和技巧,就像煉制靈丹一樣。煉丹重點描述模型調優(yōu)的過程。這個過程往往需要大量的嘗試和經(jīng)驗,包括選擇合適的模型結構、優(yōu)化算法、損失函數(shù)、學習率等,就像煉丹一樣需要精細的操作和耐心的等待。 |
| 蒸餾 | 模型蒸餾是一種模型壓縮技術,它的目標是將一個大型、復雜的模型(被稱為教師模型)的知識轉移到一個小型、簡單的模型(被稱為學生模型)中。 |
| 挖礦 | 在機器學習中,"挖礦"通常指的是數(shù)據(jù)挖掘,即從大量的、未經(jīng)過處理的數(shù)據(jù)中提取有用信息和知識的過程。這個過程包括數(shù)據(jù)清洗、數(shù)據(jù)轉換、數(shù)據(jù)分析、模式識別等步驟。在深度學習中,"挖礦"也可以指硬件的使用,比如使用GPU進行模型的訓練,這個過程因為其高能耗和高計算需求,被比喻為"挖礦"。從大量的無標注數(shù)據(jù)中挖掘出有用的信息或知識,例如構建知識圖譜、生成對話數(shù)據(jù)等。 |
自動駕駛
| 概念 | 釋義 |
|---|---|
| NOA (Navigate on Autopilo) | 智能導航輔助駕駛,但不同車企的叫法不同,例如小鵬那邊叫NGP、華為那邊叫NCA、蔚來那邊叫NOP |
| AEB (Autonomous Emergency Braking) | 自動緊急剎車系統(tǒng),一種汽車主動安全技術,主要由3大模塊構成,包括控制模塊(ECU),測距模塊,和制動模塊。其中測距模塊的核心包括微波雷達、人臉識別技術和視頻系統(tǒng)等,它可以提供前方道路安全、準確、實時的圖像和路況信息 |
NLP
| 概念 | 釋義 |
|---|---|
| 自然語言處理 (NLP) | 計算機科學領域,研究如何讓計算機理解、解釋和生成人類語言。 |
| 語義理解 (Semantic Understanding) | 模型理解文本意義,而不僅僅是字面意思,涉及上下文、隱喻等。 |
| 知識圖譜(Knowledge Graph) | 一個結構化的知識表示形式,用于存儲和展示實體(如人、地點、物品)及其相互關系。它通過節(jié)點(表示實體)和邊(表示實體間的關系)構建出一個網(wǎng)絡,使得信息可以以一種直觀且易于檢索的方式組織和存儲。 |
| 文本生成 (Text Generation) | 根據(jù)給定的提示或上下文生成新的、連貫的文本內容。 |
| 機器翻譯 (Machine Translation) | 將文本從一種語言自動翻譯成另一種語言的技術。 |
| 情感分析 (Sentiment Analysis) | 判斷文本中表達的情感傾向,如正面、負面或中性。 |
| 問答系統(tǒng) (Q&A) | 自動回答用戶提出的問題,需要理解問題并從數(shù)據(jù)中檢索或生成答案。 |
| 對話系統(tǒng) (Dialogue Systems) | 能夠與用戶進行自然語言對話的AI系統(tǒng),應用于聊天機器人等。 |
| 聊天機器人(Chatbot) | 是一種人工智能應用程序,能夠與用戶進行自然語言交流,如ChatGPT等。 |
| text2sql | Text2SQL是一種自然語言處理技術,它能將普通自然語言文本自動轉換為結構化的SQL查詢語句,使得用戶無須了解SQL語法即可對數(shù)據(jù)庫進行查詢。這項技術廣泛應用于智能客服、數(shù)據(jù)分析和BI工具中,通過理解用戶提問,自動生成對應數(shù)據(jù)庫查詢指令,獲取準確信息。 |
大模型智能體
| 概念 | 釋義 |
|---|---|
| 智能體(Agent) | 在環(huán)境中感知、思考并采取行動的自主AI系統(tǒng)。 |
| 多智能體(Multi-agent) | 多個智能體協(xié)作聯(lián)合解決復雜問題的系統(tǒng)。 |
| RAG(Retrieval-Augmented Generation) | 檢索增加生成,融合檢索與生成的混合策略,增強AI內容創(chuàng)作的豐富度與準確性。 |
| self-RAG(self-reflection-Retrieval-Augmented Generation) | 自我反思增強RAG。 |
| graph-RAG(graph-Retrieval-Augmented Generation) | 一種新方法,它使用由LLM創(chuàng)建的知識圖譜進行全局摘要,與之前專注于結構化圖檢索的方法不同,這種方法利用圖的模塊性將其劃分為密切相關的組或社區(qū)。當被問及問題時,這些摘要生成部分響應,這些響應被組合成最終答案。 |
| Function Calling | AI模型的外部能力拓展,直接調用函數(shù)或API,實現(xiàn)更廣泛的實用功能和復雜操作。 |
| Reflection | 智能體的自我審視與調節(jié)能力,使其能監(jiān)控自身狀態(tài),適時調整策略,優(yōu)化決策過程。 |
框架&工具
| 概念 | 釋義 |
|---|---|
| TensorFlow | 谷歌開源的機器學習框架,為AI開發(fā)者提供強大的工具箱,助力模型構建與算法優(yōu)化。 |
| PyTorch | 來自Meta(原Facebook)的機器學習神器,為深度學習研究與應用提供靈活而強大的工具。 |
| langchain | 是一個用于開發(fā)基于大模型應用程序的框架。 |
| Ollama | 一個可以運行Llama大模型的開源推理框架。 |
| LlamaIndex | LlamaIndex是一個連接大模型與外部數(shù)據(jù)的工具,它通過構建索引和提供查詢接口,使得大模型能夠學習和利用私有或者特定領域的數(shù)據(jù)。 |
| 向量數(shù)據(jù)庫 | 專為高維向量數(shù)據(jù)設計的存儲系統(tǒng),常用于搜索、推薦系統(tǒng)及AI中的相似性匹配,提高數(shù)據(jù)檢索效率。 |
| Neo4j | 一個高性能的NOSQL圖形數(shù)據(jù)庫,它將結構化數(shù)據(jù)存儲在網(wǎng)絡上而不是表中。它是一個嵌入式的、基于磁盤的、具備完全的事務特性的Java持久化引擎,但是它將結構化數(shù)據(jù)存儲在網(wǎng)絡(從數(shù)學角度叫做圖)上而不是表中。Neo4j也可以被看作是一個高性能的圖引擎,該引擎具有成熟數(shù)據(jù)庫的所有特性。 |
| huggingface | 一家專注于自然語言處理(NLP)的人工智能公司,以其開源的Transformers庫聞名。該庫提供了廣泛的預訓練模型和工具,支持多種任務,如文本分類、文本生成、翻譯、問答等 |
大模型產(chǎn)品
| 概念 | 釋義 |
|---|---|
| ChatGPT | 是OpenAI研發(fā)的一款聊天機器人程序,ChatGPT是人工智能技術驅動的自然語言處理工具,它能夠基于在預訓練階段所見的模式和統(tǒng)計規(guī)律,來生成回答,還能根據(jù)聊天的上下文進行互動,真正像人類一樣來聊天交流。 |
| Gemma | Gemma是谷歌研發(fā)的AI大模型。 |
| Claude | 美國人工智能初創(chuàng)公司Anthropic發(fā)布的大型語言模型家族。 |
| Llama | Meta(原Facebook)公司開發(fā)的開源大語言模型。 |
| Qwen | 阿里巴巴公司開發(fā)的開源大語言模型。 |
配套硬件&軟件
| 概念 | 釋義 |
|---|---|
| GPU | 圖形處理器,現(xiàn)代計算的加速器,尤其在深度學習和高并行計算任務中發(fā)揮著至關重要的作用。 |
| NPU | 嵌入式神經(jīng)網(wǎng)絡處理器,一般適用于特定領域的加速計算,如人工智能和計算機視覺等。 |
| CUDA | NVIDIA開發(fā)的并行計算平臺和編程模型,允許開發(fā)者利用GPU的強大性能,加速科學計算、圖形處理等應用。 |
技術討論 & 疑問建議 & 個人博客
版權聲明: 本博客所有文章除特別聲明外,均采用 CC BY-NC-SA 3.0 許可協(xié)議,轉載請注明出處