結(jié)構(gòu)化機(jī)器學(xué)習(xí)項目雜談

學(xué)自吳恩達(dá)的深度學(xué)習(xí)課程

機(jī)器學(xué)習(xí)性能

  • 開始會上升很快,但當(dāng)超過人類的表現(xiàn)的時候,速度開始變的平緩
  • 性能會有一個理論上界,就是 Bayes optimal error ,不可能被超越
當(dāng)機(jī)器的性能比人類差的時候,可以:
  • 從人類獲取更多的標(biāo)記數(shù)據(jù)
  • 人工誤差分析,了解為什么人類能夠做對,機(jī)器就不能
  • 更好的分析偏差和方差

端到端的深度學(xué)習(xí)

  • 用單個神經(jīng)網(wǎng)絡(luò)代替多個學(xué)習(xí)階段
  • 語音識別 --- 提取特征 --- 單詞元音 --- 單詞 --- 文本
    深度學(xué)習(xí)end to end 直接從 input 到 output , 即從audio 到 text
  • 有一個前提,數(shù)據(jù)要足夠多,不然舊的系統(tǒng)獲取表現(xiàn)的更好
  • 有時分成多步可能更好,比如 人臉識別, 先識別出人臉的位置,再識別出人臉的身份。(分出的兩個任務(wù)都有足夠的訓(xùn)練數(shù)據(jù))
  • 對于無人駕駛來說,單純的end to end 是不足以去學(xué)習(xí)到比較好的效果的,多階段的方式或許是更好的選擇。
Pros:
  • 讓數(shù)據(jù)直接說話,沒有人類的干預(yù)
  • 更少的人工設(shè)計
Cons:
  • 需要大量的數(shù)據(jù)
  • 排除了可能有用的手工設(shè)計組件(手工的就是直接將知識注入學(xué)習(xí)系統(tǒng)當(dāng)中 )
Choice:
  • 關(guān)鍵的問題:是否有足夠的數(shù)據(jù)去學(xué)習(xí)從x 到 y 的end to end 的映射。

多任務(wù)學(xué)習(xí)

  • 一個網(wǎng)絡(luò)進(jìn)行多個任務(wù)
  • 相比較之下,遷移學(xué)習(xí)的使用更多,都是因為數(shù)據(jù)量不夠,需要的其他的任務(wù)學(xué)到的知識作為補充。
  • 訓(xùn)練時,不管數(shù)據(jù)的標(biāo)簽是否完整,都可以進(jìn)行訓(xùn)練
什么時候有意義:
  • 一系列的任務(wù)能夠共享一些低層次的特征
  • 每一個任務(wù)的數(shù)據(jù)量很接近,如果要專注于多個人任務(wù)中的一個任務(wù)時,其他的任務(wù)加起來的數(shù)據(jù)量要必須大的多,才能對單個任務(wù)提供有用的知識。(類似于遷移學(xué)習(xí))
  • 可以訓(xùn)練一個足夠大的神經(jīng)網(wǎng)絡(luò)來同時在所有任務(wù)上取得好的表現(xiàn)
  • 多任務(wù)學(xué)習(xí)會降低性能的唯一情況是:神經(jīng)網(wǎng)絡(luò)還不夠大???,如果足夠大的神經(jīng)網(wǎng)絡(luò),性能很少會比單任務(wù)神經(jīng)網(wǎng)絡(luò)低
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容