大模型系列:LLaMA大模型簡述和本地部署實踐

關鍵詞:大語言模型,LLaMA

內(nèi)容摘要

  • LLaMA大模型背景介紹
  • LLaMA網(wǎng)絡結(jié)構(gòu)相比Transformer的改進
  • LLaMA中文化Atom大模型簡述
  • 在Python中調(diào)用HuggingFace LLaMA模型
  • 基于text-generation-webui部署LLaMA問答平臺

LLaMA大模型背景介紹

LLaMA是Meta AI公司在2023年2月發(fā)布的開源大模型,在開放基準上有著非常出色的表現(xiàn),是迄今為止最流行的開放語言模型之一。
同期谷歌的PaLM大模型,OpenAI的GPT-4都采用閉源的方式,不能從源碼來剖析模型的結(jié)構(gòu),LLaMA的開源降低了大模型的研究門檻,后續(xù)許多大模型都是借鑒或沿用了LLaMA的模型框架。另一方面由于LLaMA的開源,開發(fā)者可以將LLaMA作為基座模型進行本地部署搭建,用新的語料繼續(xù)預訓練或者微調(diào),從而保證了數(shù)據(jù)的安全性不需要發(fā)送給第三方。

Meta AI公司羊駝大模型LLaMA

LLaMA網(wǎng)絡結(jié)構(gòu)相比Transformer的改進

LLaMA和GPT系列一樣采用Transformer的堆疊Decoder,以上下文預測下一個詞作為預測目標,在海量文本上進行無監(jiān)督預訓練。LLaMA的訓練語料是以英語為主的拉丁語系,在分詞方面,LLaMA采用sentencepiece實現(xiàn)的Byte-level BPE對語料進行分詞編碼。
和標準的Transformer相比,LLaMA借鑒了同期其他的研究成果對模型的局部結(jié)構(gòu)進行了調(diào)整,包括

  • 前置層歸一化+RMSNorm歸一化函數(shù)
  • 門控線性單元和SwiGLU激活函數(shù)
  • 旋轉(zhuǎn)位置編碼RoPE
1.前置層歸一化+RMSNorm歸一化函數(shù)

為了使模型訓練更加穩(wěn)定,在Decoder單元將第一個層歸一化移動到多頭注意力之前,將第二個層歸一化移動到前饋傳播層之前,同時殘差連接位置調(diào)整到多頭注意力層和前饋傳播層之后,如下圖所示

前置層歸一化

在歸一化的計算方式上,采用RMSNorm函數(shù),相比于標準的LayerNorm舍棄了均值的影響,是均值為0時LayerNorm的特例,使得計算變得簡單加快模型訓練和推理效率。

2.門控線性單元和SwiGLU激活函數(shù)

LLaMA采用門控線性單元GLU配合Swish激活函數(shù),代替了標準transformer的前饋傳播層全連接+ReLU的結(jié)構(gòu),SwishGLU的形式在大部分測評中被證明比全連接+ReLU更加有效。SwiGLU的計算公式如下

SwiGLU公式
3.旋轉(zhuǎn)位置編碼RoPE

LLaMA采用旋轉(zhuǎn)位置編碼Rotary Position Embedding,RoPE的思想是找到一個變換將位置信息注入Query和Key向量中,這樣注意力中的Query和Key的內(nèi)積計算能夠感知到兩者的相對位置距離,這個變換的求解結(jié)果對應為向量旋轉(zhuǎn),因此取名為旋轉(zhuǎn)位置編碼。

旋轉(zhuǎn)位置編碼RoPE示意圖

LLaMA中文化Atom大模型簡述

LLaMA對中文的支持較差,訓練數(shù)據(jù)中中文占比很少,且詞表對中文字符的覆蓋度不夠,因此本篇采用Llama中文社區(qū)推出的原子大模型Atom,它基于LLaMA架構(gòu)在中文語料上重新預訓練,并且拓充了詞表提高了模型對中文文本表征能力和編碼解碼速度,可在HuggingFace模型倉庫進行下載

Atom模型下載

在Python中調(diào)用HuggingFace LLaMA模型

根據(jù)中文LLaMA社區(qū)官網(wǎng)的案例快速開始,在Python中使用HuggingFace對Atom-7B進行調(diào)用測試如下

import torch
from transformers import AutoTokenizer, LlamaForCausalLM

model = LlamaForCausalLM.from_pretrained('./Atom-7B', torch_dtype=torch.float16)
model = model.to("cuda").eval()
tokenizer = AutoTokenizer.from_pretrained('./Atom-7B', use_fast=False)
tokenizer.pad_token = tokenizer.eos_token
input_ids = tokenizer(['<s>Human: 請給一個去蘇州旅游的攻略\n</s><s>Assistant: '], return_tensors="pt",
                      add_special_tokens=False).input_ids.to('cuda')
generate_input = {
    "input_ids": input_ids,
    "max_new_tokens": 512,
    "do_sample": True,
    "top_k": 50,
    "top_p": 0.95,
    "temperature": 0.3,
    "repetition_penalty": 1.3,
    "eos_token_id": tokenizer.eos_token_id,
    "bos_token_id": tokenizer.bos_token_id,
    "pad_token_id": tokenizer.pad_token_id
}
generate_ids = model.generate(**generate_input)
text = tokenizer.decode(generate_ids[0])
print(text)

將問題:“請給一個去蘇州旅游的攻略”拼入Human Assistant提示詞模板,文本生成如下

<s> Human: 請給一個去蘇州旅游的攻略
</s><s> Assistant: 1. 交通:建議乘坐高鐵或飛機前往,距離上海約2小時車程。也可以選擇自駕車或者公共汽車出行。
2. 住宿推薦:可以住在市中心的酒店、民宿等住宿設施中;也可以考慮在風景優(yōu)美的郊區(qū)尋找合適的住所。
3. 推薦景點:拙政園(中國四大名園之一)、獅子林(園林藝術瑰寶)、留園(江南古典私家花園的典范)、虎丘塔(古代建筑和石刻藝術的代表)等等。
4. 建議游玩時間:5-7天為宜,每天安排一到兩個主要景區(qū)游覽即可。
5. 注意事項:帶好身份證件以及必要的證件如護照簽證等,注意天氣變化并攜帶雨具防曬用品等物品。遵守當?shù)胤煞ㄒ?guī)及風俗習慣和文化禁忌。尊重當?shù)氐奈幕瘋鹘y(tǒng)和環(huán)境保護意識。避免與當?shù)厝税l(fā)生沖突或其他不愉快的事情。
6. 其他信息:了解一些關于蘇州的歷史文化和風土人情的知識是非常有益的。還可以參加一些本地的特色活動體驗一下當?shù)氐纳罘绞脚c文化氛圍。最后記得留下自己的旅行心得和經(jīng)驗分享哦!
</s>

基于text-generation-webui部署LLaMA問答平臺

text-generation-webui是一個用于運行大型語言模型的Gradio Web用戶界面,他可以將本地的模型文件部署為一個Web服務,實現(xiàn)模型推理,問答對話,模型訓練,參數(shù)管理等功能。

github text-generation-webui項目

先通過anaconda創(chuàng)建Python虛擬環(huán)境

$ conda create -n textgen python=3.8
$ conda activate textgen

下載text-generation-webui項目到本地,安裝requirements中所需要的依賴

$ git clone https://github.com/oobabooga/text-generation-webui
$ cd text-generation-webui
$ pip install -r <requirements file according to table below>

安裝過程中可能會有各種版本不兼容的錯誤,逐個解決即可,安裝完成啟動server.py

$ cd text-generation-webui
$ python server.py

2023-12-15 16:42:44 INFO:Loading the extension "gallery"...
Running on local URL:  http://127.0.0.1:7861

To create a public link, set `share=True` in `launch()`.

瀏覽器打開127.0.0.1:7861進入text-generation-webui客戶端,進入model頁加載模型,提前將Atom-7B模型目錄放置到text-generation-webui路徑下的models目錄下,然后在網(wǎng)頁端選擇Atom-7B,選擇bf16精度,點擊load加載模型

model模型加載

加載成功后會提示已經(jīng)成功加載模型

模型加載成功

回到Chat界面,在文本框中輸入內(nèi)容,點擊Generate即可完成文本生成

使用大模型進行對話測試

在Parameters界面可以對generate的參數(shù)進行調(diào)整嗎,比如最大生成單詞數(shù),溫度系數(shù),top-k,top-p等。

參數(shù)管理頁面

其他功能讀者可自行測試,本文作為對LLaMA的簡單介紹和快速開始,后續(xù)會對其中部分技術細節(jié)做深入分析,全文完畢。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容