現(xiàn)象 使用 Hugging Face Trainer 在單機(jī)多卡環(huán)境下對(duì) LLAMA2-7B 進(jìn)行 LoRA finetuning 時(shí),在第一次保存 checkpoint 時(shí)...
現(xiàn)象 使用 Hugging Face Trainer 在單機(jī)多卡環(huán)境下對(duì) LLAMA2-7B 進(jìn)行 LoRA finetuning 時(shí),在第一次保存 checkpoint 時(shí)...
輔助式文本生成 - 文本生成新范式 @(NLP)[文本生成] 引言 LLM 要跨越從早期采用者到大眾市場(chǎng)的鴻溝,其必要條件是價(jià)格大眾化,也就是降低每詞元的價(jià)格。 這種降低最好...
太長(zhǎng)不看版 開源 LLM 現(xiàn)已達(dá)到一定的性能水平,可堪作為智能體工作流的推理引擎。在我們的測(cè)試基準(zhǔn)上,Mixtral[https://huggingface.co/blog/...
隨著 Mixtral 8x7B 的發(fā)布(公告[https://mistral.ai/news/mixtral-of-experts/],模型卡[https://hugging...
亂彈 LLM 的工程化 @(Thoughts) 僅為個(gè)人觀點(diǎn),亂彈而已。 這一波 LLM 狂熱很有意思,從現(xiàn)象上來看跟智能手機(jī) + 移動(dòng)互聯(lián)網(wǎng)那一撥有點(diǎn)相像。首先是 Open...
@(Engineering Practice) 本文主要介紹用于估算 transformer 類模型計(jì)算量需求和內(nèi)存需求的相關(guān)數(shù)學(xué)方法。 引言 其實(shí),很多有關(guān) transfo...
優(yōu)化故事: BLOOM 模型推理 @(Engineering Practice) 經(jīng)過“九九八十一難”,大模型終于煉成。下一步就是架設(shè)服務(wù),準(zhǔn)備開門營(yíng)業(yè)了。真這么簡(jiǎn)單?恐怕未...
BLOOM 訓(xùn)練背后的技術(shù) @(Engineering Practice) 假設(shè)你現(xiàn)在有了數(shù)據(jù),也搞到了預(yù)算,一切就緒,準(zhǔn)備開始訓(xùn)練一個(gè)大模型,一顯身手了,“一朝看盡長(zhǎng)安花”...
ChatGPT 與 AIGC 簡(jiǎn)問亂答 ** 僅代表個(gè)人觀點(diǎn)。 ** [Q1] ChatGPT 最近非?;鸨?,2 個(gè)月突破 1 億月活,從產(chǎn)品形態(tài)來看,我們知道的微軟、谷歌的...
@(Deep Learning)[Engineering] 姚偉峰[yaoweifeng0301@126.com] 2017年舊文 Deep Learning Helps M...
@(Deep Learning)[Engineering, PyTorch] 姚偉峰[yaoweifeng0301@126.com]http://www.cnblogs.co...
Why Graph無處不在 Graph Intelligence helps It's the right time now! Gartner預(yù)測(cè),graph技術(shù)在數(shù)據(jù)和分析...
@(NLP)[IR] 姚偉峰(Matrix Yao) Info Card full nameRetrieval Enhanced TRansfOrmerpaperImprov...
@(ML)[Engineering] 姚偉峰[yaoweifeng0301@126.com] 「大數(shù)據(jù)其實(shí)有點(diǎn)兒像青少年的性。每一個(gè)人都興致勃勃地談?wù)撍菦]有任何一個(gè)人真...
@(ML)[算法] 姚偉峰[yaoweifeng0301@126.com] Why [例] 論丈母娘如何選女婿 決策樹 判別函數(shù) Decision Tree是一種非線性分類和...
@(Deep Learning)[算法] 姚偉峰[yaoweifeng0301@126.com] ResNet-v1(2015 Dec) Paper Deep Residua...
姚偉峰 做研究就像比武論劍一樣,要論劍就要到華山論劍,如果你一定要去太行山論劍,去挺進(jìn)大別山,那別人只能當(dāng)你是游擊隊(duì),永遠(yuǎn)也別想成正規(guī)軍。在計(jì)算機(jī)視覺領(lǐng)域,農(nóng)村是永遠(yuǎn)也包圍不...
@(Engineering Practice)[Fun For Deep Dive] 姚偉峰 問題 MIP (Maximum Inner Product) 輸入查詢向量(qu...