上限分析通常能提供一種很有價值的信號或者說很有用的導向告訴你流水線中的哪個部分最值得你花時間。
舉例:數(shù)值評價量度,字符準確度,圖像中的文字識別正確的比例
上限分析的主要思想:
首先關注這個機器學習流程中的第一個模塊文字檢測,歷每個測試集樣本,然后人為地告訴算法每一個測試樣本中什么地方出現(xiàn)了文字,即100%正確地檢測出圖片中的文字信息。然后繼續(xù)運行完接下來的幾個模塊,也就是字符分割和字符識別,然后使用跟之前一樣的評價量度指標來測量整個系統(tǒng)的總體準確度。假如準確定提升,則改進文字檢測有機會可以整體提高系統(tǒng)的準確性。用標準的文字檢測結(jié)果,同時用標準的字符分割結(jié)果,遍歷測試樣本得到準確率。

上限分析
進行上限分析的一個好處是知道了如果對每一個模塊進行改善 它們各自的上升空間是多大。
如果我們擁有完美的文字檢測模塊,那么整個系統(tǒng)的表現(xiàn)將會從準確率72%上升到89%,因此效果的增益是17%。這就意味著如果你在現(xiàn)有系統(tǒng)的基礎上花費時間和精力改善文字檢測模塊的效果,那么系統(tǒng)的表現(xiàn)可能會提高17%看起來這還挺值得。但是系統(tǒng)表現(xiàn)只提升了1%,這便提供了一個很重要的信息告訴我們不管我們投入多大精力在字符分割上,系統(tǒng)效果的潛在上升空間也都是很小很小。

示例