最近調(diào)研寫(xiě)基于VLA結(jié)合強(qiáng)化學(xué)習(xí)的文章, 這邊看到了字節(jié)跳動(dòng)基于強(qiáng)化學(xué)習(xí)完成機(jī)器人攜帶穿戴的任務(wù), 感覺(jué)還是比較驚艷, 里面也是加入了稀疏的離線強(qiáng)化學(xué)習(xí). 先給出論文的地址:...
最近調(diào)研寫(xiě)基于VLA結(jié)合強(qiáng)化學(xué)習(xí)的文章, 這邊看到了字節(jié)跳動(dòng)基于強(qiáng)化學(xué)習(xí)完成機(jī)器人攜帶穿戴的任務(wù), 感覺(jué)還是比較驚艷, 里面也是加入了稀疏的離線強(qiáng)化學(xué)習(xí). 先給出論文的地址:...
DDPG:“DQN 的連續(xù)動(dòng)作版 + Actor-Critic”。 TD3因?yàn)樵贕R-RL模型當(dāng)中提到了TD3算法, 這里我們將TD3算法原理做一個(gè)簡(jiǎn)單了解。 一、思想 用一...
最近看了openpi-0.6*相關(guān)論文,為了能更好的將學(xué)習(xí)到的知識(shí)做一次記錄, 在本篇博客我將會(huì)把我對(duì)論文的理解記錄下來(lái):① paper:π*0.6: a VLA that ...
前面已經(jīng)說(shuō)了PPO(Proximal Policy Optimization)(一)算法原理[http://www.itdecent.cn/p/f1283edebacb],...
接著openpi論文及代碼解析(A Vision-Language-Action Flow Model for General Robot Control) (一)[http...
其實(shí) A3C與前面說(shuō)的 PPO 算法PPO(Proximal Policy Optimization)(一)算法原理[http://www.itdecent.cn/p/f1...
一、 DoubleDQN 相當(dāng)于把不同的DQN代碼進(jìn)行融合得到的效果 隨著游戲的進(jìn)行, 期望的 Q 會(huì)越來(lái)越大, 不利于網(wǎng)絡(luò)訓(xùn)練。我們看下 DQN 以及 DoubleDQN ...
前面說(shuō)了 PPO 算法, 下面一鼓作氣, 把其他的相關(guān)的強(qiáng)化學(xué)習(xí)也一并學(xué)習(xí)下。這里還是給出我學(xué)習(xí)的一些視頻鏈接 視頻鏈接: 不愧是頂會(huì)收割機(jī)!迪哥精講強(qiáng)化學(xué)習(xí)4大主流算法:P...
先分享下代碼地址:PPO_Nogo.py[https://gitcode.com/qq_51399582/Reinforcement-Learning/blob/main/8...
之前在學(xué)習(xí)大模型的時(shí)候?qū)W習(xí)過(guò) PPO 算法, 但是當(dāng)時(shí)也沒(méi)有來(lái)得及對(duì)該算法進(jìn)行梳理, 因此原理也基本忘了差不多了。 現(xiàn)在在做具身算法, 強(qiáng)化學(xué)習(xí)還是要重新?lián)旎貋?lái), 這里又需要...
根據(jù)前一篇博客的介紹H-RDT(H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation) 代碼及模型...
這兩天看了H-RDT模型, 該模型由地平線機(jī)器人實(shí)驗(yàn)室與清華大學(xué)計(jì)算機(jī)系朱軍團(tuán)隊(duì)聯(lián)合提出,在計(jì)算機(jī)視覺(jué)與模式識(shí)別領(lǐng)域頂級(jí)會(huì)議CVPR 2025舉辦的RoboTwin雙臂機(jī)器人...
前面文章已經(jīng)把openpi論文及代碼解析(A Vision-Language-Action Flow Model for General Robot Control) (一)...
接著前面說(shuō)到了優(yōu)化器openpi論文及代碼解析結(jié)束(A Vision-Language-Action Flow Model for General Robot Control...
之前把openpi的基礎(chǔ)背景進(jìn)行梳理, openpi論文及代碼解析(A Vision-Language-Action Flow Model for General Robot...
目前一說(shuō)到具身算法不得不提兩種經(jīng)典模型一個(gè)是rdt模型一個(gè)是pi0模型, rdt模型在之前的博客介紹過(guò)了RDT-1B: a Diffusion Foundation Mode...
這段時(shí)間咱們得機(jī)器人已經(jīng)做得差不多了, 我們需要基于自己采集的數(shù)據(jù)進(jìn)行模型訓(xùn)練, 趁著數(shù)據(jù)還沒(méi)有采集出來(lái), 我先將一些說(shuō)明進(jìn)行梳理。 一、數(shù)據(jù)收集 首先收集hdf5相關(guān)數(shù)據(jù)集...
先給出代碼的git地址: https://github.com/thu-ml/RoboticsDiffusionTransformer[https://github.com/...
四、數(shù)據(jù)處理模塊 該模塊需要看兩處代碼分為別hdf5_vla_dataset.py[https://github.com/thu-ml/RoboticsDiffusionTr...