Shape Robust Text Detection with Progressive Scale Expansion Network

很簡單樸素卻抓住了問題本質(zhì)的思路。牢牢把握住用分割的方法來做文本檢測這一捷徑,并針對文本毗鄰時的單例分割做不好的問題,提出從文本中心開始,擴散到整個文本,分步完成預測的方法。

分割的思路難點在于如何把單例分割做好,WeText通過增加第三類(board類)來做,PixelLink通過預測點和點的連接關(guān)系做。其他方法:EAST等通過增加回歸來做,F(xiàn)STN 通過先進行Box-level的單例定位,然后再分割來做。

image.png

搭建FPN,然后把各個層的feature map融合成一個,后續(xù)接conv33后,接一系列11Conv層來實現(xiàn)各個階段的分割任務,每個階段分割的label都是shrink過的,shrink的程度逐漸變輕。

image.png

問題在于:需要調(diào)的參數(shù)可能比較多,數(shù)據(jù)集改變后,可能需要重新調(diào)參。應該沒有PixelLink魯棒。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容