Windows 下的zip文件 方法Ubuntu下亂碼。 讓Ubuntu支持gbk字符集 查看系統(tǒng)支持的字符集 cat /usr/share/i...
本節(jié)主要介紹 Model-free prediction。從一個未知的MDP中估計出值函數(shù)。 1. Monte-Carlo Reinforcem...
這節(jié)主要講了動態(tài)規(guī)劃在強化學習中的用法。 引入兩個問題的定義,Prediction,Control。Prediction: 預測問題,MDP的信...
問題:同樣的問題,不同的表述,生成的回復就不一致。 方法:在seq2seq的的decoder 加入了用戶向量,類似詞向量,利用用戶帳號信息,如性...
這節(jié)課同樣講的一些基礎(chǔ)概念,為之后的課程做鋪墊。 馬爾科夫過程(Markov Processes) S是一個有限的狀態(tài)集合P是state之間的轉(zhuǎn)...
這節(jié)課主要講了一些基本概念。 強化學習的特點 非監(jiān)督,只需要一個獎勵R 獎勵是非即時的 agent 的actions 影響它后續(xù)的數(shù)據(jù) 1. R...
Pointer Networks 論文地址:https://arxiv.org/abs/1506.03134 因為上一篇博客CopyNet引用了...
Incorporating Copying Mechanism in Sequence-to-Sequence Learning 作者來自香港大...
首先是ubuntu的安裝 制作U盤啟動(windows下UltralSO工具制作)。 開機狂按F12(不同的機器,快捷鍵不同),進入BIOS界面...