69av天堂影院,激情网在线,日本免费1区2区

發(fā)簡(jiǎn)信

黃粱夢(mèng)醒

2
關(guān)注
23
粉絲
80
文章
108376

字?jǐn)?shù)
62

收獲喜歡
11

總資產(chǎn)

IP屬地：上海

黃粱夢(mèng)醒

gpt4o--圖像參數(shù)
gpt-4o 學(xué)習(xí)到的參數(shù) frequency_penalty 和 presence_penalty：防止模型重復(fù)內(nèi)容或鼓勵(lì)引入新話題。多模態(tài)調(diào)用 gpt-4o只能支持理解...

54 0 0
黃粱夢(mèng)醒

openai
結(jié)構(gòu)化輸出有兩種定義數(shù)據(jù)結(jié)構(gòu)的方式，一種是用類(lèi)定義（Pydantic），一種是用使用 JSON Schema 字典（tool use時(shí)接觸的）方式一：使用 Pydanti...

45 0 1

黃粱夢(mèng)醒

Palantir
Palantir Ontology是組織的操作層，Ontology 位于集成到Palantir平臺(tái)中的數(shù)字資產(chǎn)（數(shù)據(jù)集、虛擬表和模型）之上，并將它們與真實(shí)世界的對(duì)應(yīng)物連接起來(lái)...

90 0 0
黃粱夢(mèng)醒

MCP開(kāi)發(fā)實(shí)戰(zhàn)
構(gòu)建客戶(hù)端具體代碼見(jiàn)githubgithub中使用的是DeepSeek API調(diào)用同時(shí)也可以調(diào)用本地模型進(jìn)行對(duì)話如通過(guò)ollama 或者vllm 首先啟動(dòng)vllm服務(wù)2....

71 0 0
黃粱夢(mèng)醒

Qwen3技術(shù)報(bào)告
Abstract Qwen3 系列包括dense transformer和MoE架構(gòu)的模型。Qwen3 的一項(xiàng)關(guān)鍵創(chuàng)新是將思維模式（用于復(fù)雜的多步驟推理）和非思維模式（用于快...

298 0 0
黃粱夢(mèng)醒

DeepSeek-V3技術(shù)報(bào)告
總結(jié) 和原生的transformer架構(gòu)的decoder部分相比，deepseek架構(gòu)有幾點(diǎn)不同 layernorm替換為RMSnorm FFN替換為DeepSeekMoE ...

154 0 0
黃粱夢(mèng)醒

DeepSeekMoE論文精讀
Abstract 在大型語(yǔ)言模型時(shí)代，Mixture-of-Expert （MoE）是一種很有前途的架構(gòu)，用于在擴(kuò)展模型參數(shù)時(shí)管理計(jì)算成本。然而，像GShard這樣傳統(tǒng)Mo...

178 0 0

黃粱夢(mèng)醒

Llama3技術(shù)報(bào)告精讀--(1)
總結(jié) Llama3的模型依舊是用的是傳統(tǒng)的dense Transformer架構(gòu)，與Llama2和Llama在架構(gòu)上沒(méi)有本質(zhì)的區(qū)別，只是在訓(xùn)練數(shù)據(jù)量和參數(shù)規(guī)模上有了很大的提升...

139 0 1
黃粱夢(mèng)醒

InstructGPT論文精讀--Training language models to follow instructions with human feedback
總結(jié) InstructGPT 的訓(xùn)練方法就是ChatGPT的訓(xùn)練方法 Abstract 作者認(rèn)為，語(yǔ)言模型越大本質(zhì)上并不能讓它更好地遵循人類(lèi)的意圖，它可能會(huì)生成一些不真實(shí)的、...

155 0 0
黃粱夢(mèng)醒

T5模型論文精讀
總結(jié) T5 是谷歌提出了一個(gè)統(tǒng)一預(yù)訓(xùn)練模型和框架，模型采用了谷歌最原始的 Encoder-Decoder Transformer結(jié)構(gòu)。 T5將每個(gè)文本處理問(wèn)題都看成“Text...

109 0 0
黃粱夢(mèng)醒

GPT3論文精讀
總結(jié) GPT3在模型架構(gòu)上，主要是擴(kuò)大了GPT2的參數(shù)；在論文創(chuàng)新內(nèi)容上，提出了few-shot learning，GPT3能在少樣本的提示上表現(xiàn)出不錯(cuò)的效果。 Abstra...

246 0 0
黃粱夢(mèng)醒

NLP的tokenizer---分詞器
tokenizer作為NLP領(lǐng)域不可缺少的一部分，對(duì)于模型的訓(xùn)練時(shí)間和效果有著重要的影響，如果分詞器的粒度太細(xì)，詞表會(huì)很小，但是能代表的實(shí)際含義也會(huì)很少；如果粒度較粗，整個(gè)詞...

199 0 0

黃粱夢(mèng)醒

GPT2論文精讀----Language Models are Unsupervised Multitask Learners
總結(jié)：論文：gpt2不需要fine-tuning階段，探索多任務(wù)學(xué)習(xí)，即gpt2在zero-shot learning的效果。模型結(jié)構(gòu)：在gpt1的基礎(chǔ)上，將layern...

142 0 0
黃粱夢(mèng)醒

hive sql優(yōu)化
調(diào)優(yōu)經(jīng)驗(yàn) 盡量限制更少的分區(qū) 制定列，不要使用select * 業(yè)務(wù)層面，指標(biāo)是否可以從匯總層取 where條件盡量去掉無(wú)關(guān)行查詢(xún)優(yōu)化對(duì)作業(yè)進(jìn)行合理拆分使用合適的數(shù)據(jù)類(lèi)...

53 0 0
黃粱夢(mèng)醒

模型下載方法
1 通過(guò)huggingface 進(jìn)行下載 1.1 通過(guò)python transformers包進(jìn)行下載-- 需要科學(xué)上網(wǎng) 1.2 hugging face專(zhuān)用工具 -- 通過(guò)...

84 0 0
黃粱夢(mèng)醒

GPT1論文精讀
Abstract 自然語(yǔ)言理解包括各種不同的下游任務(wù)。盡管大型未標(biāo)記的文本語(yǔ)料庫(kù)很豐富，但用于學(xué)習(xí)這些特定任務(wù)的標(biāo)號(hào)數(shù)據(jù)很少，這使得訓(xùn)練分辨（判別）模型比較難。作者的解決方法...

112 0 0
黃粱夢(mèng)醒

BERT論文精讀
Abstract BERT是通過(guò)對(duì)所有層中的左右上下文進(jìn)行聯(lián)合調(diào)節(jié)，從未標(biāo)記的文本中預(yù)訓(xùn)練深度雙向表示。大家可以只需要一個(gè)額外的輸出層來(lái)進(jìn)行微調(diào)這個(gè)模型，就可以在很多不同的任...

226 0 0

黃粱夢(mèng)醒

模型參數(shù)的大小的計(jì)算方式
拿BERT為例L= 12， H = 768 embedding = 30000 * H transformer塊：包括自注意力機(jī)制和MLP2.1 QKV 3個(gè)權(quán)重矩陣 + ...

84 0 0
黃粱夢(mèng)醒

第一段就寫(xiě)錯(cuò)了，Sinusoidal Positional Encoding有外推的能力， learned才沒(méi)有

位置編碼（Positional Encoding）
在大語(yǔ)言模型（LLM）中，位置編碼（Positional Encoding）是用于表示輸入序列中詞匯或標(biāo)記相對(duì)位置的技術(shù)。由于Transformer架構(gòu)本身并沒(méi)有內(nèi)建順序信息...

躺不平的NLPer
2223 1 0
黃粱夢(mèng)醒

llms-from-scratch--attention mechanism 詳解代碼計(jì)算
1.1 長(zhǎng)序列建模的問(wèn)題由于源語(yǔ)和目的語(yǔ)語(yǔ)法結(jié)構(gòu)的差異，逐字翻譯文本是不可行的在引入transformer之前，encoder-decoder 的RNN模型通常用于機(jī)器翻...

214 0 1

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av