圖像處理,計(jì)算機(jī)視覺和人工智能之間的差異
作者:Pallawi
圖像處理和計(jì)算機(jī)視覺是超級(jí)興奮的研究和研究領(lǐng)域。隨著人工智能的進(jìn)步,這兩個(gè)領(lǐng)域都在不斷發(fā)展。
為任何AI產(chǎn)品命名,你會(huì)發(fā)現(xiàn)計(jì)算機(jī)視覺在制造每個(gè)智能系統(tǒng)中起著重要作用。我已經(jīng)提供了一些令人驚訝的鏈接,可以在本博客的最后使用該應(yīng)用程序,你可以自己嘗試并體驗(yàn)這些顛覆性技術(shù)如何改變世界前后的工作方式。
因此,在本博客中,我將幫助你了解圖像處理,計(jì)算機(jī)視覺和人工智能之間的區(qū)別。
我提出了一個(gè)有趣的情況,這將有助于你非常輕松地理解所有這三個(gè)主題。
“所以,在假期你決定點(diǎn)擊你的兩只寵物狗的照片”Shimmy“和”Pluto“訓(xùn)練,在你美麗的花園里進(jìn)行一場(chǎng)比賽。 “Shimmy”必須在拿球后走左路,“冥王星”應(yīng)該走正確的路線?!?/p>
圖像處理
你點(diǎn)擊了數(shù)百?gòu)堈掌芸炀屯瓿闪伺臄z照片,現(xiàn)在你希望在社交媒體上上傳完美的照片。 但在發(fā)布圖像之前,你希望圖像看起來更周到,并且你還希望告訴你的朋友,圖像是在周日早上7點(diǎn)拍攝的,并在圖像上打印出可愛的寵物名稱作為主題標(biāo)簽。
要完成上述所有操作,你決定通過圖像編輯移動(dòng)應(yīng)用程序傳遞圖像,該應(yīng)用程序在后端運(yùn)行多個(gè)功能,并在每個(gè)功能中運(yùn)行圖像處理算法,該算法將你的圖像作為輸入對(duì)圖像執(zhí)行數(shù)學(xué)運(yùn)算,如在算法中并給出所需的輸出圖像。 如下圖所示,你可以看到重新分布的色調(diào)級(jí)別(伽馬校正),輸出圖像和嵌入其中的文本。
這是我的圖像處理代碼的鏈接,它很容易和有趣的嘗試自己。
https://github.com/PallawiSinghal/AI_Starter/blob/master/image_processing.ipynb
計(jì)算機(jī)視覺
現(xiàn)在,你希望獎(jiǎng)勵(lì)你的寵物“Shimmy”和“Pluto”作為獲勝者和亞軍,根據(jù)誰在他們的嘴里抓住紅蘋果或黃色圓盤的最大次數(shù)并將它們返回給你在他們各自的軌道上移動(dòng) ,左邊是“Shimmy”,右邊是“Pluto”(游戲規(guī)則)。
你可以通過查看上面的圖像來輕松決定Shimmy是贏家,但如果你每天玩50次游戲而且每周玩7天,該怎么辦?
然后通過查看圖像決定誰是勝者,現(xiàn)在數(shù)量已增加到每周350張圖像變成一項(xiàng)艱巨的任務(wù)。
所以,現(xiàn)在你必須建立一個(gè)計(jì)算機(jī)視覺系統(tǒng)來自動(dòng)化你的工作。
因此,CV(計(jì)算機(jī)視覺)系統(tǒng)的第一步應(yīng)該對(duì)350的每個(gè)圖像進(jìn)行詳細(xì)分析。
分析階段
這項(xiàng)分析的目的是找到一個(gè)通用的解決方案,不僅僅是幾百個(gè)圖像,而是多年來的許多圖像。
我們?cè)趫D像中必須尋找的是大多數(shù)時(shí)候?qū)櫸锶绾纬霈F(xiàn)在圖像中的模式。就像這里“Shimmy”在左側(cè)軌道,“Pluto”在右側(cè)。
此外,深入分析圖像質(zhì)量,如圖像中局部和全局噪聲的數(shù)量,對(duì)比度增強(qiáng)的要求和邊緣保存。在圖像中需要和容易分割。此外,哪些圖像的特征是提取以找到帶球的寵物,其可以是球的形狀或狗的顏色。
現(xiàn)在計(jì)算機(jī)視覺主要是兩個(gè)主要的事情,分析和圖像處理算法,你選擇聯(lián)合起來得出這樣的結(jié)論,誰是兩個(gè)寵物中的勝利者。
圖像處理算法在對(duì)大量數(shù)據(jù)進(jìn)行詳細(xì)分析后智能地進(jìn)行分組,以給出正確的結(jié)果,例如每只寵物抓住球的次數(shù),玩家公平,何時(shí)以及為什么寵物未能接球,最大或最小高度如果給定任何輸入圖像定義計(jì)算機(jī)視覺系統(tǒng),則捕獲球。它是關(guān)于概括或提供結(jié)合許多圖像處理算法的可擴(kuò)展解決方案。
由于圖像處理輔助計(jì)算機(jī)視覺從圖像中獲取更有意義的信息,因此它還使開發(fā)人員的分析質(zhì)量極其獨(dú)立,負(fù)責(zé)開發(fā)通用解決方案,以便通過CV系統(tǒng)獲得較不相似的測(cè)試圖像的準(zhǔn)確輸出。
在下面的圖像中,你可以看到我發(fā)現(xiàn)“Shimmy”有黃色磁盤。我通過執(zhí)行圖像分割,輪廓搜索,凸包檢測(cè),多邊形逼近,將多邊形映射到空白圖像并最終使用模板匹配檢測(cè)黃色磁盤來完成此操作。
[2]: 左圖是輸入圖像,中間圖像是掩模(如果你不斷看圖像一段時(shí)間你可以找到從中心到角的強(qiáng)度差異),右圖是背景圖像(這個(gè)背景) 使用非常著名的OpenCV函數(shù)“Grabcut”完成刪除(前景和背景分割)。
[3]: 第一個(gè)圖像是上面最右邊圖像的模糊圖像,這里使用的模糊像處理算法,用于邊緣保存和噪聲消除。 第二幅圖像是灰度圖像。 第三圖像是閾值圖像,也稱為二值圖像。 第四個(gè)圖像是第三個(gè)圖像的輪廓圖像(簡(jiǎn)單地說,我們?cè)噲D在所有顏色為白色的物體上繪制邊界,其中也包括寵物),在最后一個(gè)圖像中,我們通過周長(zhǎng)逼近最大輪廓使用凸包,這里最大的輪廓將是寵物的輪廓,并在圖像上繪制近似的形狀,多邊形。
[4]: 左圖像是該步驟的輸入圖像,我們制作近似的小掩模(中心圖像)以將寵物多邊形轉(zhuǎn)移(也稱為翹曲,wrapping)到小圖像(中心圖像)上。 翹曲后的結(jié)果看起來像右圖
[5]: 左圖是這里的輸入,我們使用黃色光盤的小模板圖像在此圖像上進(jìn)行模板匹配,如下圖所示。 模板匹配是一種算法,模板圖像從輸入圖像的頂部到底部移動(dòng),輸入圖像是我們情況下最左邊的圖像,并在輸入圖像中找到最佳匹配部分。 模板匹配的輸出將是中心圖像,因?yàn)槟憧梢钥吹綀D像中最亮和閃亮的部分是黃色光盤所在的位置。 因此,我們?cè)谧钣疫叺膱D像上繪制一個(gè)框。
我非??隙ǎ绻闶浅鯇W(xué)者,你必須查找一下上面充滿那些沒有聽過的詞。 但請(qǐng)相信我,這是一個(gè)從分析到算法設(shè)計(jì)的非常有趣和創(chuàng)造性的旅程。
這是我的GitHub帳戶的鏈接,你可以在其中找到計(jì)算機(jī)視覺系統(tǒng)的代碼,該系統(tǒng)可以找到誰有球。 我將在即將發(fā)布的博客中撰寫關(guān)于所有部分的詳細(xì)博客,并提供鏈接。 但如果您現(xiàn)在有任何疑問,請(qǐng)隨時(shí)在評(píng)論部分詢問我。
Here is the link to my code for Computer Vision, it is easy and intresting to try on your own.
https://github.com/PallawiSinghal/AI_Starter/blob/master/computer_vision.ipynb
人工智能
如果你選擇硬閾值來檢測(cè)“Shimmy”,“Pluto”或黃色循環(huán),例如應(yīng)用半自動(dòng)分割(OpenCV grab cut),模板匹配,決定寵物應(yīng)移動(dòng)的軌道,則此設(shè)計(jì)的系統(tǒng)可能缺乏可擴(kuò)展性或?qū)櫸锷眢w的顏色閾值。你最終可能會(huì)創(chuàng)建一個(gè)只能識(shí)別“Shimmy”和“Pluto”的偏見系統(tǒng)。
你將無法將你的CV系統(tǒng)交給世界,以便在不同的狗或貓身上得到相同的結(jié)果,因?yàn)橐?guī)則和特征只偏向于“Shimmy”和“Pluto”。
人工智能“救世主”提供圖像處理,計(jì)算機(jī)視覺算法和機(jī)器學(xué)習(xí)算法,以幫助你像魔術(shù)一樣推廣系統(tǒng)。
它是一個(gè)像我們的大腦這樣的系統(tǒng),它通過不斷地查看周圍的事物來智能,合理和準(zhǔn)確地采取它所學(xué)習(xí)的任何決策,這只不過是數(shù)據(jù),并且通過隨時(shí)間學(xué)習(xí)的反饋和經(jīng)驗(yàn)來更新所獲得的知識(shí)。
就像你在教育系統(tǒng)中長(zhǎng)大的學(xué)習(xí)一樣,你的老師教你用圖像來區(qū)分世俗的東西,給你的大腦喂兩個(gè)輸入,一個(gè)是圖像,第二個(gè)是正確的特征描述,它的外觀和位置在圖片。
同樣,如果我們想為上述類比構(gòu)建一個(gè)AI系統(tǒng),我們需要使用圖像處理算法提供預(yù)處理的圖像,并告訴他們你想要檢測(cè)的球,磁盤,蘋果,狗或任何東西的位置并存在于圖像中。
然后,一旦圖像和圖像的內(nèi)容,信息被提供給系統(tǒng),計(jì)算機(jī)視覺就會(huì)出現(xiàn)在圖片中。
AI由多層組成,就像一包面包一樣,每層運(yùn)行一個(gè)計(jì)算機(jī)視覺算法,其工作是從圖像中提取特征。
在前幾層中,我們提取圖像上的直線或曲線邊緣等低級(jí)特征,然后在它學(xué)習(xí)檢測(cè)眼睛,蘋果,爪子,尾巴以及后來完成的每層中提取所有提取的特征。狗或貓。稍后您將使用這些學(xué)習(xí)過濾器來預(yù)測(cè)新數(shù)據(jù)集上的對(duì)象,該數(shù)據(jù)集也稱為測(cè)試數(shù)據(jù)集。
當(dāng)然有數(shù)學(xué)方程式。 但是,讓我向你保證,他們很容易,你可以做到。
并且所有的學(xué)習(xí)都保存在模型中,就像我們的學(xué)習(xí)保存在我們的大腦中一樣,它是通用的,可以用于任何其他數(shù)據(jù)。
構(gòu)建AI解決方案的一個(gè)非常關(guān)鍵的輸入是數(shù)據(jù)。 想象一下,你需要付出的努力才能創(chuàng)造出一個(gè)狗在世界各地玩球的數(shù)據(jù)集(沒有差錯(cuò)的數(shù)據(jù)集)。
因此,總結(jié)三個(gè)方面的圖像處理,計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)形成了一個(gè)人工智能系統(tǒng),你可以在其周圍聽到,看到和體驗(yàn)。
總結(jié)
我試圖解決一個(gè)非常簡(jiǎn)單但非常重要的話題,這個(gè)領(lǐng)域的每個(gè)初學(xué)者都想要理解。 當(dāng)我開始學(xué)習(xí)這個(gè)領(lǐng)域時(shí),我總是有這個(gè)問題,而且我發(fā)現(xiàn)很少有人明確地回答我的問題。 我希望我能幫到你。 我強(qiáng)烈建議你為每個(gè)部分運(yùn)行我的代碼。 它非常簡(jiǎn)單,有助于在你對(duì)這些廣泛主題的想法中建立清晰度。