日韩成人在线一区,精品日韩一区二区,精品一区操操

發(fā)簡(jiǎn)信

blackmanba_084b

21
關(guān)注
221
粉絲
90
文章
200088

字?jǐn)?shù)
348

收獲喜歡
35

總資產(chǎn)

IP屬地：新疆

blackmanba_084b

GR-RL
最近調(diào)研寫(xiě)基于VLA結(jié)合強(qiáng)化學(xué)習(xí)的文章，這邊看到了字節(jié)跳動(dòng)基于強(qiáng)化學(xué)習(xí)完成機(jī)器人攜帶穿戴的任務(wù)，感覺(jué)還是比較驚艷，里面也是加入了稀疏的離線強(qiáng)化學(xué)習(xí). 先給出論文的地址：...

73 0 0
blackmanba_084b

DDPG && TD3強(qiáng)化學(xué)習(xí)算法
DDPG:“DQN 的連續(xù)動(dòng)作版 + Actor-Critic”。 TD3因?yàn)樵贕R-RL模型當(dāng)中提到了TD3算法，這里我們將TD3算法原理做一個(gè)簡(jiǎn)單了解。一、思想用一...

76 0 1

blackmanba_084b

openpi-0.6
最近看了openpi-0.6*相關(guān)論文，為了能更好的將學(xué)習(xí)到的知識(shí)做一次記錄，在本篇博客我將會(huì)把我對(duì)論文的理解記錄下來(lái)：① paper：π*0.6: a VLA that ...

116 0 0
blackmanba_084b

PPO vs DPO vs GRPO vs DAPO
前面已經(jīng)說(shuō)了PPO(Proximal Policy Optimization）（一）算法原理[http://www.itdecent.cn/p/f1283edebacb]，...

126 0 0
blackmanba_084b

openpi-0.5論文及原理講解
接著openpi論文及代碼解析(A Vision-Language-Action Flow Model for General Robot Control) (一)[http...

323 0 0
blackmanba_084b

A3C 原理解析
其實(shí) A3C與前面說(shuō)的 PPO 算法PPO(Proximal Policy Optimization）（一）算法原理[http://www.itdecent.cn/p/f1...

114 0 0
blackmanba_084b

DQN 系列算法
一、 DoubleDQN 相當(dāng)于把不同的DQN代碼進(jìn)行融合得到的效果隨著游戲的進(jìn)行，期望的 Q 會(huì)越來(lái)越大，不利于網(wǎng)絡(luò)訓(xùn)練。我們看下 DQN 以及 DoubleDQN ...

117 0 0

blackmanba_084b

DQN（Deep Q-Network）原理即代碼分析
前面說(shuō)了 PPO 算法，下面一鼓作氣，把其他的相關(guān)的強(qiáng)化學(xué)習(xí)也一并學(xué)習(xí)下。這里還是給出我學(xué)習(xí)的一些視頻鏈接視頻鏈接：不愧是頂會(huì)收割機(jī)！迪哥精講強(qiáng)化學(xué)習(xí)4大主流算法：P...

688 0 0
blackmanba_084b

PPO(Proximal Policy Optimization）（二)代碼解析
先分享下代碼地址：PPO_Nogo.py[https://gitcode.com/qq_51399582/Reinforcement-Learning/blob/main/8...

101 0 0
blackmanba_084b

PPO(Proximal Policy Optimization）（一）算法原理
之前在學(xué)習(xí)大模型的時(shí)候?qū)W習(xí)過(guò) PPO 算法，但是當(dāng)時(shí)也沒(méi)有來(lái)得及對(duì)該算法進(jìn)行梳理，因此原理也基本忘了差不多了。現(xiàn)在在做具身算法，強(qiáng)化學(xué)習(xí)還是要重新?lián)旎貋?lái)，這里又需要...

191 0 0
blackmanba_084b

H-RDT(H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation) 代碼及模型閱讀(二)
根據(jù)前一篇博客的介紹H-RDT(H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation) 代碼及模型...

71 0 0
blackmanba_084b

H-RDT(H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation) 代碼及模型閱讀(一)
這兩天看了H-RDT模型，該模型由地平線機(jī)器人實(shí)驗(yàn)室與清華大學(xué)計(jì)算機(jī)系朱軍團(tuán)隊(duì)聯(lián)合提出，在計(jì)算機(jī)視覺(jué)與模式識(shí)別領(lǐng)域頂級(jí)會(huì)議CVPR 2025舉辦的RoboTwin雙臂機(jī)器人...

212 0 0

blackmanba_084b

Pi0-FAST: 論文及代碼解析(FAST: Efficient Action Tokenization for Vision-Language-Action Models) (四)
前面文章已經(jīng)把openpi論文及代碼解析(A Vision-Language-Action Flow Model for General Robot Control) (一)...

234 0 0
blackmanba_084b

openpi論文及代碼解析(A Vision-Language-Action Flow Model for General Robot Control) (三)
接著前面說(shuō)到了優(yōu)化器openpi論文及代碼解析結(jié)束(A Vision-Language-Action Flow Model for General Robot Control...

192 0 0
blackmanba_084b

openpi論文及代碼解析(A Vision-Language-Action Flow Model for General Robot Control) (二)
之前把openpi的基礎(chǔ)背景進(jìn)行梳理, openpi論文及代碼解析(A Vision-Language-Action Flow Model for General Robot...

219 0 0
blackmanba_084b

openpi論文及代碼解析(A Vision-Language-Action Flow Model for General Robot Control) (一)
目前一說(shuō)到具身算法不得不提兩種經(jīng)典模型一個(gè)是rdt模型一個(gè)是pi0模型, rdt模型在之前的博客介紹過(guò)了RDT-1B: a Diffusion Foundation Mode...

825 0 1
blackmanba_084b

RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation - 如何訓(xùn)練自己數(shù)據(jù)集
這段時(shí)間咱們得機(jī)器人已經(jīng)做得差不多了，我們需要基于自己采集的數(shù)據(jù)進(jìn)行模型訓(xùn)練，趁著數(shù)據(jù)還沒(méi)有采集出來(lái)，我先將一些說(shuō)明進(jìn)行梳理。一、數(shù)據(jù)收集首先收集hdf5相關(guān)數(shù)據(jù)集...

151 0 0

blackmanba_084b

RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 論文及代碼總結(jié)(二)
先給出代碼的git地址: https://github.com/thu-ml/RoboticsDiffusionTransformer[https://github.com/...

254 0 0
blackmanba_084b

RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 論文及代碼總結(jié)(三)
四、數(shù)據(jù)處理模塊該模塊需要看兩處代碼分為別hdf5_vla_dataset.py[https://github.com/thu-ml/RoboticsDiffusionTr...

125 0 0

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av