個(gè)人為了看的方便沒有廣告,轉(zhuǎn)載自泡泡機(jī)器人:
https://www.sohu.com/a/161346283_715754#comment_area? 侵刪
作者:
Raúl Mur-Artal*, J. M. M. Montiel, Member, IEEE, and Juan D. Tardós, Member, IEEE
翻譯:Taylor Guo
原文部分重譯與審核:趙搏欣
編輯:楊雨生
歡迎個(gè)人轉(zhuǎn)發(fā)朋友圈;其他機(jī)構(gòu)或自媒體如需轉(zhuǎn)載,后臺(tái)留言申請授權(quán)
V.跟蹤
在這一部分,我們將詳細(xì)介紹跟蹤線程在相機(jī)每幀圖像上執(zhí)行的步驟。在幾個(gè)步驟中都提到的相機(jī)位姿優(yōu)化,包括運(yùn)動(dòng)BA,將在附錄部分進(jìn)行闡述。
A、ORB特征提取
我們在8層圖像金字塔上提取FAST角點(diǎn),金字塔圖像尺度因子為1.2。如果圖像分辨率從512*384到752*480,我們發(fā)現(xiàn)提取1000個(gè)角點(diǎn)比較合適,如果分辨率提高,如KITTI數(shù)據(jù)集[40],則提取2000個(gè)角點(diǎn)。為了確保特征點(diǎn)均勻分布,我們將每層圖像分成網(wǎng)格,每格提取至少5個(gè)角點(diǎn)。然后檢測每格角點(diǎn),如果角點(diǎn)數(shù)量不夠,就調(diào)整閾值。如果某些單元格內(nèi)檢測不出角點(diǎn),則其對(duì)應(yīng)提取的角點(diǎn)數(shù)量也相應(yīng)減少。最后,根據(jù)保留的FAST的角點(diǎn)計(jì)算方向和ORB特征描述子。ORB特征描述子將用于算法后續(xù)所有的特征匹配,而不是像PTAM算法中那樣根據(jù)圖像區(qū)塊的相關(guān)性進(jìn)行搜索。
B、通過前一圖像幀估計(jì)相機(jī)的初始位姿
如果上一幀圖像跟蹤成功,我們就用運(yùn)動(dòng)速率恒定模型來預(yù)測當(dāng)前相機(jī)的位置(即認(rèn)為攝像頭處于勻速運(yùn)動(dòng)),然后搜索上一幀圖像中的特征點(diǎn)在地圖中的對(duì)應(yīng)云點(diǎn)與當(dāng)前幀圖像的匹配點(diǎn),最后利用搜索到的匹配點(diǎn)對(duì)當(dāng)前相機(jī)的位姿進(jìn)一步優(yōu)化。但是,如果沒有找到足夠的匹配點(diǎn)(比如,運(yùn)動(dòng)模型失效,非勻速運(yùn)動(dòng)),我們就加大搜索范圍,搜索地圖云點(diǎn)附近的點(diǎn)在當(dāng)前幀圖像中是否有匹配點(diǎn),然后通過尋找到的對(duì)應(yīng)匹配點(diǎn)對(duì)來優(yōu)化當(dāng)前時(shí)刻的相機(jī)位姿。
C、通過全局重定位來初始化位姿
如果擴(kuò)大了搜索范圍還是跟蹤不到特征點(diǎn),(那么運(yùn)動(dòng)模型已經(jīng)失效),則計(jì)算當(dāng)前幀圖像的詞袋(BoW)向量,并利用BoW詞典選取若干關(guān)鍵幀作為備選匹配幀(這樣可以加快匹配速度);然后,在每個(gè)備選關(guān)鍵幀中計(jì)算與地圖云點(diǎn)相對(duì)應(yīng)的ORB特征,就如第三部分E節(jié)所描述的。接著,對(duì)每個(gè)備選關(guān)鍵幀輪流執(zhí)行PnP算法[41]計(jì)算當(dāng)前幀的位姿(RANSAC迭代求解)。如果我們找到一個(gè)姿態(tài)能涵蓋足夠多的有效點(diǎn),則搜索該關(guān)鍵幀對(duì)應(yīng)的更多匹配云點(diǎn)。最后,基于找到的所有匹配點(diǎn)對(duì)相機(jī)位置進(jìn)一步優(yōu)化,如果有效數(shù)據(jù)足夠多,則跟蹤程序?qū)⒊掷m(xù)執(zhí)行。
D、跟蹤局部地圖
一旦我們獲得了初始相機(jī)位姿和一組初始特征匹配點(diǎn),我們就可以將更多的地圖云點(diǎn)投影到圖像上以尋找更多的匹配點(diǎn)。為了降低大地圖的復(fù)雜性,我們只映射局部地圖。該局部地圖包含一組關(guān)鍵幀K1,它們和當(dāng)前關(guān)鍵幀有共同的地圖云點(diǎn),還包括與關(guān)鍵幀K1在covisibility graph中相鄰的一組關(guān)鍵幀K2。這個(gè)局部地圖中有一個(gè)參考關(guān)鍵幀Kref∈K1,它與當(dāng)前幀具有最多共同的地圖云點(diǎn)?,F(xiàn)在對(duì)K1, K2中可見的每個(gè)地圖云點(diǎn),在當(dāng)前幀中進(jìn)行如下搜索:
計(jì)算地圖云點(diǎn)在當(dāng)前幀圖像中的投影點(diǎn)x。如果投影位置超出圖像邊緣,就將對(duì)應(yīng)的地圖云點(diǎn)刪除。
計(jì)算當(dāng)前視圖射線v和地圖云點(diǎn)平均視圖方向n的夾角。如果n<cos(60o),就刪除對(duì)應(yīng)云點(diǎn)。
計(jì)算地圖云點(diǎn)到相機(jī)中心的距離d。如果它不在地圖云點(diǎn)的尺度不變區(qū)間內(nèi),即d?[dmin,dmax],就刪除該云點(diǎn)。
計(jì)算每幀圖像的尺度比d/dmin。
對(duì)比地圖云點(diǎn)的特征描述子D和當(dāng)前幀中還未匹配的ORB特征,在預(yù)測的尺度層和靠近x的云點(diǎn)作最優(yōu)匹配。
相機(jī)位姿最后通過當(dāng)前幀中獲得所有的地圖云點(diǎn)進(jìn)行優(yōu)化。(這個(gè)環(huán)節(jié)的目的是在當(dāng)前幀和局部地圖之間找到更多的匹配點(diǎn)對(duì),來優(yōu)化當(dāng)前幀的位姿)。
E、新關(guān)鍵幀的判斷標(biāo)準(zhǔn)
最后一步是決定當(dāng)前幀是否可以作為關(guān)鍵幀。由于局部地圖構(gòu)建的過程中有一個(gè)機(jī)制去篩選冗余的關(guān)鍵幀,所以我們需要盡快地插入新的關(guān)鍵幀以保證跟蹤線程對(duì)相機(jī)的運(yùn)動(dòng)更具魯棒性,尤其是對(duì)旋轉(zhuǎn)運(yùn)動(dòng)。我們根據(jù)以下要求插入新的關(guān)鍵幀:
距離上一次全局重定位后需要超過20幀圖像。
局部地圖構(gòu)建處于空閑狀態(tài),或距上一個(gè)關(guān)鍵幀插入后,已經(jīng)有超過20幀圖像。
當(dāng)前幀跟蹤少于50個(gè)地圖云點(diǎn)。
當(dāng)前幀跟蹤少于參考關(guān)鍵幀K_ref云點(diǎn)的90%。
與PTAM中用關(guān)鍵幀之間的距離作為判斷標(biāo)準(zhǔn)不同,我們加入一個(gè)最小的視圖變換,如條件4。條件1
確保一個(gè)好的重定位,條件3保證好的跟蹤。如果局部地圖構(gòu)建處于忙狀態(tài)(條件2的后半部分)的時(shí)候插入關(guān)鍵幀,就會(huì)發(fā)信號(hào)去暫停局部BA,這樣就可以盡可能快地去處理新的關(guān)鍵幀。
VI. 局部地圖構(gòu)建
這章我們將描述根據(jù)每個(gè)新的關(guān)鍵幀Ki構(gòu)建局部地圖的步驟。
A、關(guān)鍵幀插入
首先更新covisibility graph,具體包括:添加一個(gè)關(guān)鍵幀節(jié)點(diǎn)Ki,檢查與Ki有共同云點(diǎn)的其他關(guān)鍵幀,用邊線連接。然后,更新生成樹上與Ki有最多共享點(diǎn)的其他關(guān)鍵幀的鏈接。計(jì)算表示該關(guān)鍵幀的詞袋,并利用三角法生成新的地圖云點(diǎn)。
B、地圖點(diǎn)云篩選
三角化的云點(diǎn)為了已知保留在地圖中,必須在其創(chuàng)建后的頭三個(gè)關(guān)鍵幀中通過一個(gè)嚴(yán)格的測試,該測試確保留下的云點(diǎn)都是能被跟蹤的,不是由于錯(cuò)誤的數(shù)據(jù)而被三角化的。一個(gè)云點(diǎn)必須滿足如下條件:
跟蹤線程必須在超過25%的圖像中找到該特征點(diǎn)。
如果創(chuàng)建地圖云點(diǎn)經(jīng)過了多個(gè)關(guān)鍵幀,那么它必須至少是能夠被其他3個(gè)關(guān)鍵幀觀測到。
一旦一個(gè)地圖云點(diǎn)通過測試,它只能在被少于3個(gè)關(guān)鍵幀觀測到的情況下移除。這樣的情況在關(guān)鍵幀被刪除以及局部BA排除異值點(diǎn)的情況下發(fā)生。這個(gè)策略使得我們的地圖包含很少的無效數(shù)據(jù)。
C、新地圖點(diǎn)云創(chuàng)建
新的地圖云點(diǎn)的創(chuàng)建是通過對(duì)covisibility
graph中連接的關(guān)鍵幀Kc中的ORB特征點(diǎn)進(jìn)行三角化實(shí)現(xiàn)的。對(duì)Ki中每個(gè)未匹配的ORB特征,我們在其他關(guān)鍵幀的未匹配云點(diǎn)中進(jìn)行查找,看是否有匹配上的特征點(diǎn)。這個(gè)匹配過程在第三部分第E節(jié)中有詳細(xì)闡述,然后將那些不滿足對(duì)級(jí)約束的匹配點(diǎn)刪除。ORB特征點(diǎn)對(duì)三角化后,需要對(duì)其在攝像頭坐標(biāo)系中的深度信息,視差,重投影誤差和尺度一致性進(jìn)行審查,通過后則將其作為新點(diǎn)插入地圖。起初,一個(gè)地圖云點(diǎn)通過2個(gè)關(guān)鍵幀觀測,但它在其他關(guān)鍵幀中也有對(duì)應(yīng)匹配點(diǎn),所以它可以映射到其他相連的關(guān)鍵幀中,搜索算法的細(xì)則在本文第5部分D節(jié)中有講述。
D、局部BA
局部BA主要對(duì)當(dāng)前處理的關(guān)鍵幀Ki,以及在covisibility
graph中與Ki連接的其他關(guān)鍵幀Kc,以及這些關(guān)鍵幀觀測到的地圖云點(diǎn)進(jìn)行優(yōu)化所有其他能夠觀測到這些云點(diǎn)的關(guān)鍵幀但沒有連接Ki的會(huì)被保留在優(yōu)化線程中,但保持不變。優(yōu)化期間以及優(yōu)化后,所有被標(biāo)記為無效的觀測數(shù)據(jù)都會(huì)被丟棄,附錄有詳細(xì)的優(yōu)化細(xì)節(jié)。
E、局部關(guān)鍵幀篩選
為了使重構(gòu)保持簡潔,局部地圖構(gòu)建盡量檢測冗余的關(guān)鍵幀,刪除它們。這樣對(duì)BA過程會(huì)有很大幫助,因?yàn)殡S著關(guān)鍵幀數(shù)量的增加,BA優(yōu)化的復(fù)雜度也隨之增加。當(dāng)算法在同一場景下運(yùn)行時(shí),關(guān)鍵幀的數(shù)量則會(huì)控制在一個(gè)有限的情況下,只有當(dāng)場景內(nèi)容改變了,關(guān)鍵幀的數(shù)量才會(huì)增加,這樣一來,就增加了系統(tǒng)的可持續(xù)操作性。如果關(guān)鍵幀Kc中90%的點(diǎn)都可以被其他至少三個(gè)關(guān)鍵幀同時(shí)觀測到,那認(rèn)為Kc的存在是冗余的,我們則將其刪除。尺度條件保證了地圖點(diǎn)以最準(zhǔn)確的方式保持它們對(duì)應(yīng)的關(guān)鍵幀(這句翻譯沒理解透:The
scale condition ensures that map points maintain keyframes from which
they are measured with most
accuracy.)這個(gè)策略受Tan等人的工作[24]的啟發(fā),在這項(xiàng)工作中,作者在經(jīng)過一系列變化檢測后即將關(guān)鍵幀刪除。
VII. 閉環(huán)檢測
閉環(huán)檢測線程抽取Ki——最后一幀局部地圖關(guān)鍵幀,用于檢測和閉合回環(huán)。具體步驟如下:
A、候選關(guān)鍵幀
我們先計(jì)算Ki的詞袋向量和它在covisibility
graph中相鄰圖像(θmin=30)的相似度,保留最低分值Smin。然后,我們檢索圖像識(shí)別數(shù)據(jù)庫,丟掉那些分值低于Smin的關(guān)鍵幀。這和DBoW2中均值化分值的操作類似,可以獲得好的魯棒性,DBoW2中計(jì)算的是前一幀圖像,而我們是使用的covisibility信息。另外,所有連接到Ki的關(guān)鍵幀都會(huì)從結(jié)果中刪除。為了獲得候選回環(huán),我們必須檢測3個(gè)一致的候選回環(huán)(covisibility
graph中相連的關(guān)鍵幀)。如果對(duì)Ki來說環(huán)境樣子都差不多,就可能有幾個(gè)候選回環(huán)。
B、計(jì)算相似變換
單目SLAM系統(tǒng)有7個(gè)自由度,3個(gè)平移,3個(gè)旋轉(zhuǎn),1個(gè)尺度因子 [6]。因此,閉合回環(huán),我們需要計(jì)算從當(dāng)前關(guān)鍵幀Ki到回環(huán)關(guān)鍵幀Kl的相似變換,以獲得回環(huán)的累積誤差。計(jì)算相似變換也可以作為回環(huán)的幾何驗(yàn)證。
我們先計(jì)算ORB特征關(guān)聯(lián)的當(dāng)前關(guān)鍵幀的地圖云點(diǎn)和回環(huán)候選關(guān)鍵幀的對(duì)應(yīng)關(guān)系,具體步驟如第3部分E節(jié)所示。此時(shí),對(duì)每個(gè)候選回環(huán),我們有了一個(gè)3D到3D的對(duì)應(yīng)關(guān)系。我們對(duì)每個(gè)候選回環(huán)執(zhí)行RANSAC迭代,通過Horn方法(如論文[42])找到相似變換。如果我們用足夠的有效數(shù)據(jù)找到相似變換Sil,我們就可以優(yōu)化它,并搜索更多的對(duì)應(yīng)關(guān)系。如果Sil有足夠的有效數(shù)據(jù),我們再優(yōu)化它,直到Kl回環(huán)被接受。
C、回環(huán)融合
回環(huán)矯正的第一步是融合重復(fù)的地圖云點(diǎn),在covisibility
graph中插入與回環(huán)相關(guān)的的新邊緣。先通過相似變換Sil矯正當(dāng)前關(guān)鍵幀位姿Tiw,這種矯正方法應(yīng)用于所有與Ki相鄰的關(guān)鍵幀,這樣回環(huán)兩端就可以對(duì)齊。然后,回環(huán)關(guān)鍵幀及其近鄰能觀測到的所有地圖云點(diǎn)都映射到Ki及其近鄰中,并在映射的區(qū)域附近小范圍內(nèi)搜索它的對(duì)應(yīng)匹配點(diǎn),如第5部分D節(jié)所述。所有匹配的地圖云點(diǎn)和計(jì)算Sil過程中的有效數(shù)據(jù)進(jìn)行融合。融合過程中所有的關(guān)鍵幀將會(huì)更新它們在covisibility
graph中的邊緣,創(chuàng)建的新邊緣將用于回環(huán)檢測。
D、Essential Graph優(yōu)化
為了有效地閉合回環(huán),我們通過Essential Graph優(yōu)化位姿圖,如第三部分D節(jié)所示,這樣可以將回環(huán)閉合的誤差分散到圖像中去。優(yōu)化程序通過相似變換校正尺度偏移,如論文[6]。誤差和成本計(jì)算如附錄所示。優(yōu)化過后,每一個(gè)地圖云點(diǎn)都根據(jù)關(guān)鍵幀的校正進(jìn)行變換。
VIII. 實(shí)驗(yàn)
我們采用NewCollege[39]的大場景機(jī)器人圖像序列對(duì)本文提出的系統(tǒng)進(jìn)行了較全面的實(shí)驗(yàn)評(píng)估,首先采用TUM的室內(nèi)16個(gè)手持RGB-D數(shù)據(jù)集[38]對(duì)系統(tǒng)的總體性能進(jìn)行了評(píng)估,包括算法的定位精度,重定位和程序運(yùn)行能力;然后,用KITTI的10個(gè)汽車戶外圖像數(shù)據(jù)集[40],評(píng)估算法在實(shí)時(shí)大場景下的操作及其定位精度和位姿圖的優(yōu)化效率。
算法運(yùn)行在Intel Core i7-4700MQ (4核@2.40GHz)和8GB
RAM的實(shí)驗(yàn)平臺(tái)上,運(yùn)算速率可達(dá)到實(shí)時(shí),且以幀率對(duì)圖像進(jìn)行準(zhǔn)確處理。ORB-SLAM有3個(gè)主線程,它們和其他ROS線程并行運(yùn)行,由于引入了ROS操作系統(tǒng),因此算法結(jié)果具有一定的隨機(jī)性,針對(duì)這個(gè)原因,我們在一些實(shí)驗(yàn)中公布了算法運(yùn)行的中間結(jié)果。
A、基于Newcollege數(shù)據(jù)集測試系統(tǒng)性能
NewCollege數(shù)據(jù)集[39]包含了一個(gè)2.2公里的校園的機(jī)器人圖像序列。它是由雙目相機(jī)拍攝,幀率為20fps,分辨率512x38。圖像序列中包含幾個(gè)回環(huán)和快速的旋轉(zhuǎn),這對(duì)單目視覺定位非常具有挑戰(zhàn)性。據(jù)我們所知,目前沒有單目系統(tǒng)可以處理整個(gè)圖像序列。例如論文[7],盡管其算法可以實(shí)現(xiàn)回環(huán)檢測,也可以應(yīng)用于大場景環(huán)境,但只有小部分序列圖像能夠顯示單目結(jié)果。
如圖4顯示的是我們的算法檢測到的閉合回路,從圖中可以看出,我們選擇的有效數(shù)據(jù)點(diǎn)都支持相似性變換。圖5則對(duì)比了回環(huán)閉合前后的環(huán)境地圖重構(gòu)狀況。其中,紅色標(biāo)注的是局部地圖,回環(huán)檢測后可以看到其兩端擴(kuò)展到連接整個(gè)運(yùn)行軌跡。圖6是以實(shí)時(shí)幀率速度運(yùn)行整個(gè)圖像序列后的全局地圖,從圖中可以看出,后邊的大回環(huán)并沒有完全閉合,它從另外一個(gè)方向穿過,位置識(shí)別程序沒能發(fā)現(xiàn)閉合回路。



我們統(tǒng)計(jì)了ORB_SLAM算法每個(gè)線程所用的時(shí)間。表1顯示了算法跟蹤和局部構(gòu)圖的時(shí)間。可以看出,跟蹤的幀率大概在25-30Hz,這是跟蹤局部地圖所需的最多時(shí)間。如果需要的話,這個(gè)時(shí)間還可以更快,只要減少局部地圖中所包含的關(guān)鍵幀數(shù)量即可。局部地圖構(gòu)建線程中需時(shí)最高的是局部BA優(yōu)化。局部BA的時(shí)間根據(jù)機(jī)器人探索環(huán)境的狀態(tài)變動(dòng),即在未探索環(huán)境下所需時(shí)間多,在已經(jīng)探索過的環(huán)境下運(yùn)行所需時(shí)間少,因?yàn)樵谖粗h(huán)境中如果跟蹤線程插入一個(gè)新的關(guān)鍵幀,BA優(yōu)化會(huì)被中斷,如第5部分E節(jié)所示。如果不需要插入新的關(guān)鍵幀,局部BA優(yōu)化則會(huì)執(zhí)行大量已經(jīng)設(shè)置的迭代程序。


表2顯示了6個(gè)閉合回路的結(jié)果??梢钥吹交丨h(huán)檢測是如何亞線性地隨關(guān)鍵幀數(shù)量的增多而增加。這主要是由于高效的數(shù)據(jù)庫檢索,表2中只比較了具有相同圖像單詞的圖像子集,由此可見用于位置識(shí)別詞袋模型的潛力。我們的Essential
Graoh中包含的邊緣是關(guān)鍵幀數(shù)量的5倍,它是一個(gè)稀疏圖。
B、基于TUM RGB-D標(biāo)準(zhǔn)庫的定位精度
TUM RGB-D數(shù)據(jù)集[38]是一個(gè)用于估計(jì)攝像頭定位精度的優(yōu)秀數(shù)據(jù)庫,它提供了許多圖像序列,還包括外部運(yùn)動(dòng)捕捉系統(tǒng)提供的對(duì)應(yīng)軌跡真值。我們?nèi)サ裟切┎贿m合純單目SLAM系統(tǒng)的圖像序列,這些序列包含強(qiáng)烈的旋轉(zhuǎn),沒有紋理或沒有運(yùn)動(dòng)。
為了驗(yàn)證算法性能,我們選擇了最近提出的直接法半稠密LSD-SLAM(論文[10])和經(jīng)典算法PTAM(論文[4])作為對(duì)比。除此之外,我們還比較了由RGBD-SLAM(論文[43])算法生成的軌跡。為了在相同的基準(zhǔn)下比較ORB-SLAM,LSD-SLAM和PTAM,我們用相似變換對(duì)齊關(guān)鍵幀軌跡,在尺度未知的情況下,檢測軌跡的絕對(duì)誤差(論文[38])。對(duì)RGBD-SLAM算法,我們通過相機(jī)坐標(biāo)變換來對(duì)齊軌跡,也采用同樣的方法檢測尺度是否重構(gòu)良好。LSD-SLAM從隨機(jī)深度值開始初始化,然后隨機(jī)值逐漸收斂,因此與基準(zhǔn)對(duì)比的時(shí)候,我們會(huì)丟掉前10個(gè)關(guān)鍵幀。對(duì)于PTAM算法,我們從一個(gè)好的初始化中,手動(dòng)選擇兩個(gè)關(guān)鍵幀。表3
是對(duì)我們選擇的16個(gè)圖像序列運(yùn)行5次的中間結(jié)果。
從表中可以看出,ORB-SLAM可以處理所有的圖像序列,除了fr3 nostructure texture far (fr3 nstr
tex
far)以外。這是一個(gè)平面的場景,相機(jī)的軌跡在這種情況下有兩種可能,正如論文[27]中的描述的。我們的初始化方法檢測到這種模棱兩可的情況,為了保證算法的安全運(yùn)行選擇不進(jìn)行初始化。PTAM初始化有時(shí)會(huì)選擇對(duì)的方案,有些可能會(huì)選擇錯(cuò)的方案,且導(dǎo)致的錯(cuò)誤可能不能接受。我們沒有注意到LSD-SLAM的2種不同的重構(gòu)方案,但在這個(gè)圖像序列出現(xiàn)的錯(cuò)誤非常多。針對(duì)其他的圖像序列,PTAM和LSD-SLAM算法的魯棒性都比我們的方法差,且分別有八組序列和三組序列中地圖點(diǎn)容易跟蹤丟失。
關(guān)于精度問題,沒有回環(huán)檢測期間,ORB-SLAM和PTAM算法的定位精度相當(dāng),但回環(huán)檢測成功后,ORB-SLAM算法將達(dá)到更高的定位精度,正如在圖像序列fr3
nostructure texture near withloop (fr3 nstr tex
near)中表現(xiàn)的。非常意外的一個(gè)結(jié)果是PTAM和ORB-SLAM都非常明顯地表現(xiàn)出精度高于LSD-SLAM和RGBD-SLAM。一個(gè)可能的原因是它們將地圖的優(yōu)化過程簡化為一個(gè)單純的姿態(tài)圖優(yōu)化過程,這樣就造成了傳感器測量信息的丟失,但在我們的算法中,采用BA優(yōu)化,同時(shí)通過傳感器測量優(yōu)化相機(jī)的姿態(tài)和地圖的云點(diǎn)位置,這是解決運(yùn)動(dòng)到結(jié)構(gòu)[2]的經(jīng)典標(biāo)準(zhǔn)算法。。我們將在第9部分B節(jié)進(jìn)一步討論了這個(gè)結(jié)果。另一個(gè)有趣的結(jié)果是在圖像序列fr2
desk with person 和 fr3 walking xyz中,LSD-SLAM對(duì)動(dòng)態(tài)物體的魯棒性相比ORB-SLAM差一些。
我們注意到RGBD-SLAM在圖像序列fr2上尺度上有一個(gè)偏差,用7自由度對(duì)齊軌跡則誤差明顯減少。最后我們注意到Engle等人在論文[10]中提出在f2_xyz上PTAM的精度比LSD-SLAM算法低,RMSE是24.28cm。然而,論文沒有給出足夠的細(xì)節(jié)說明如何獲得這些結(jié)果的,因此我們沒有辦法復(fù)現(xiàn)它。

C、基于TUM RGB-D標(biāo)準(zhǔn)數(shù)據(jù)庫的重定位
我們在TUM
RGB-D數(shù)據(jù)集上進(jìn)行了兩組重定位實(shí)驗(yàn)。在第一個(gè)實(shí)驗(yàn)中,我們選擇fr2_xyz圖像序列,通過前30秒構(gòu)建了一個(gè)地圖,然后對(duì)后來的每一幀圖像都進(jìn)行全局重定位,并評(píng)估重構(gòu)出來的相機(jī)位姿精度。我們對(duì)PTAM算法進(jìn)行了相同的實(shí)驗(yàn)。如圖7所示是創(chuàng)建初始地圖的關(guān)鍵幀,重定位的圖像幀位姿和這些幀對(duì)應(yīng)的真值。從圖中可以看出PTAM算法只能夠?qū)χ囟ㄎ魂P(guān)鍵幀附近的圖像幀,這是因?yàn)槠渌惴ㄖ兄囟ㄎ环椒ú⒉痪邆洳蛔冃螌?dǎo)致的。表4顯示了PTAM算法和ORB_SLAM算法相對(duì)地面真值的誤差。從表中數(shù)據(jù)可以看出,ORB-SLAM比PTAM可以更精準(zhǔn)地多定位2倍的圖像幀。在第2個(gè)實(shí)驗(yàn)中,我們采用fr3_sitting_xyz圖像序列來初始化地圖,然后用fr3_walking_xyz圖像序列重定位所有的圖像幀。這是一個(gè)頗具挑戰(zhàn)性的實(shí)驗(yàn),由于圖像中有人移動(dòng),會(huì)造成圖像局部區(qū)域的遮擋。在該試驗(yàn)中,PTAM并沒有實(shí)現(xiàn)重定位,而ORB-SLAM重定位了78%的圖像幀,如表4所示。圖8顯示了ORB-SLAM重定位的一些實(shí)驗(yàn)圖例。



D、基于TUM RGB-D標(biāo)準(zhǔn)數(shù)據(jù)集測試算法的運(yùn)行生命
之前的重定位實(shí)驗(yàn)表明我們的系統(tǒng)可以從非常不同的視角定位地圖,在中等動(dòng)態(tài)環(huán)境中的魯棒性也較好。這個(gè)特性和關(guān)鍵幀篩選程序使得算法在不同的視角和局部動(dòng)態(tài)環(huán)境中能夠一直運(yùn)行到圖像結(jié)束。
在全靜態(tài)場景情況下,即使相機(jī)從不同視角觀測場景,ORB-SLAM也可以使關(guān)鍵幀數(shù)量保持在一個(gè)有限的水平內(nèi)。我們在一個(gè)自定義的圖像序列中驗(yàn)證了這一點(diǎn),手持相機(jī)在93秒以內(nèi)都拍攝同一張桌子,但視角一直變換,形成一個(gè)軌跡。我們對(duì)比了我們地圖的關(guān)鍵幀數(shù)量和PTAM生成的關(guān)鍵幀,如圖9所示。可以看到PTAM一直都在插入關(guān)鍵幀,而ORB-SLAM會(huì)刪除冗余的關(guān)鍵幀,將其總數(shù)保持在一個(gè)穩(wěn)定的范圍內(nèi)。

當(dāng)然,在整個(gè)程序運(yùn)行過程中,靜態(tài)環(huán)境下的正常操作是任何SLAM系統(tǒng)的一個(gè)基本要求,更引人關(guān)注的是動(dòng)態(tài)環(huán)境下的狀況。我們在幾個(gè)fr3的圖像序列中分析了ORB-SLAM系統(tǒng)的狀況,圖像序列有:sitting
xyz, sitting halfsphere, sitting rpy, walking xyz, walking halfspehere
和walking
rpy。所有的視頻中,相機(jī)都對(duì)著桌子,但運(yùn)動(dòng)軌跡不同,拍攝場景中有人在移動(dòng),椅子也被移動(dòng)了。如圖10(a)所示是ORB_SLAM算法生成的地圖中所有關(guān)鍵幀的總數(shù)量,圖10(b)顯示從圖像幀中創(chuàng)建或刪除關(guān)鍵幀,從中可以看出從關(guān)鍵幀到地圖構(gòu)建需要多久時(shí)間??梢钥吹角?個(gè)圖像序列中新看到(增加)場景時(shí)地圖的大小一直在增加。圖10(b)是前2個(gè)視頻中創(chuàng)建的關(guān)鍵幀。在視頻sitting_rpy和walking_xyz中,地圖沒有增加,地圖是通過已有場景創(chuàng)建。相反,在最后兩個(gè)視頻中,有更多的關(guān)鍵幀插入但沒有在場景中表示出來,可能由于場景的動(dòng)態(tài)變化。圖10(C)是關(guān)鍵幀的柱狀圖,它們是從視頻中挑選出來的。大部分的關(guān)鍵幀被篩選程序刪除了,只有一小部分留下來了。ORB-SLAM有大量關(guān)鍵幀的生成策略,在未知環(huán)境下非常有用;后面系統(tǒng)會(huì)生成一個(gè)小的子集來代表這些關(guān)鍵幀。
在整個(gè)實(shí)驗(yàn)中,我們系統(tǒng)的地圖根據(jù)場景上內(nèi)容來增加,而不是根據(jù)時(shí)間,它可以存儲(chǔ)場景的動(dòng)態(tài)變化,對(duì)場景的理解非常有用。

E、基于KITTI數(shù)據(jù)集測試算法在大場景大回環(huán)下的性能對(duì)比
KITTI數(shù)據(jù)集中里程計(jì)的數(shù)據(jù)包括11個(gè)視頻,它的獲取是在一個(gè)住宅區(qū)駕駛汽車,基準(zhǔn)精度非常高,有一個(gè)GPS和一個(gè)Velodyne
Laser
Scanner。這個(gè)數(shù)據(jù)集對(duì)單目系統(tǒng)非常有挑戰(zhàn)性,因?yàn)橐曨l中有快速旋轉(zhuǎn),區(qū)域內(nèi)有大量樹葉,這使數(shù)據(jù)關(guān)聯(lián)變得更困難,而且車速相對(duì)較快,視頻記錄的頻率為10fps。除了視頻01外,ORB-SLAM可以處理其他所有的視頻,01是高速路上的視頻,可追蹤的物體非常少。視頻00,02,05,06,07,09,有閉環(huán)回路,系統(tǒng)可以檢測到,并使它閉合。其中視頻09的閉環(huán)只能在視頻的最后幾個(gè)圖像幀里檢測到,并不是每次都能成功檢測到(結(jié)果顯示的是針對(duì)其被檢測到的運(yùn)行情況)。

對(duì)于軌跡與基準(zhǔn)的定性比較如圖11和12所示。在TUM
RGB-D數(shù)據(jù)集中,我們可以通過相似變換對(duì)齊軌跡的關(guān)鍵幀和基準(zhǔn)。圖11是定性比較的結(jié)果,圖12是論文[25]中的最新單目SLAM在視頻00,05,06,07和08上執(zhí)行的結(jié)果。除了08有一些偏移以外,ORB-SLAM在這些視頻上的軌跡都很精準(zhǔn)。


表5顯示了每個(gè)視頻的關(guān)鍵幀軌跡中間的RMSE誤差。我們基于地圖尺寸提供了軌跡的誤差。結(jié)果表明我們的軌跡誤差是地圖尺寸的1%左右。大致范圍低的是視頻03的0.3%高的是視頻08的5%。視頻08中沒有閉環(huán),漂移也沒辦法糾正,因?yàn)殚]環(huán)控制需要獲得更精確的重構(gòu)。

在本次實(shí)驗(yàn)中,我們還確認(rèn)了到底全局BA的20層迭代最終能優(yōu)化多少地圖重構(gòu),相關(guān)細(xì)節(jié)如附錄所示。我們還注意到全局BA優(yōu)化可以稍微增加閉環(huán)軌跡的精度,但這對(duì)開環(huán)軌跡有負(fù)面影響,這意味著我們的系統(tǒng)已經(jīng)非常精確了。在有些應(yīng)用中,如果需要非常精確的結(jié)果我們的算法會(huì)提供一組匹配,需要定義一個(gè)比較強(qiáng)的相機(jī)網(wǎng)絡(luò),一個(gè)初始估計(jì),這樣全局BA優(yōu)化迭代次數(shù)就會(huì)變少。
最后講一下我們算法的閉環(huán)檢測和用于essential
graph邊緣的θmin的效率。我們選擇視頻09(一段非常長的圖像序列,在最后有一個(gè)閉環(huán)),然后評(píng)估不同的閉環(huán)檢測算法。表6是關(guān)鍵幀軌跡RMSE和不同情況下沒有閉環(huán)檢測優(yōu)化所用的時(shí)間,表中的相關(guān)內(nèi)容包括:如果直接采用全局BA優(yōu)化(20層或100層迭代)的情況,如果只用位姿圖優(yōu)化(10層迭代不同數(shù)量的邊緣)的情況,如果先用位姿圖優(yōu)化再執(zhí)行全局BA優(yōu)化的情況。結(jié)果表明,在閉環(huán)檢測之前,算法的RMSE誤差較大,以至于BA優(yōu)化沒辦法收斂,即便是迭代100次之后后誤差仍舊非常大。另一方面,essential
graph優(yōu)化收斂速度很快,而且結(jié)果也更精確。θmin對(duì)精度影響并不大,減少邊緣的數(shù)量會(huì)明顯降低精度。位姿圖優(yōu)化后再執(zhí)行一個(gè)BA優(yōu)化則可以增加精度,但時(shí)間也增加了。

IX. 結(jié)論和討論
A、結(jié)論
本文中,我們提出了一個(gè)新的單目SLAM系統(tǒng),并詳細(xì)介紹了其組成模塊,最后基于公共數(shù)據(jù)庫對(duì)其性能進(jìn)行了全方位的測試。通過實(shí)驗(yàn)得知,我們的系統(tǒng)可以處理室內(nèi)與室外的圖像序列,能夠用于汽車、機(jī)器人和手持設(shè)備上。其定位精度在室內(nèi)小場景中約為1厘米,室外大場景的應(yīng)用是幾米(前提是我們與真實(shí)軌跡尺度對(duì)齊的情況下)。
由Klein和Murray[4]提出的PTAM算法被認(rèn)為是目前最精準(zhǔn)的單目實(shí)時(shí)SLAM方法。PTAM后端是BA優(yōu)化,這是眾所周知的離線SFM(從運(yùn)動(dòng)到結(jié)構(gòu))問題[2]的經(jīng)典解法。PTAM算法和Mouragnon[3]早期作品的主要貢獻(xiàn)是將BA算法引入到機(jī)器人SLAM框架下,并具有良好的實(shí)時(shí)性。而本文的主要貢獻(xiàn)是將PTAM算法的適用性進(jìn)一步擴(kuò)展,使其可以應(yīng)用于原來不可應(yīng)用的場景下。為了實(shí)現(xiàn)這一目標(biāo),我們整合了前面幾年的優(yōu)秀作品,引入新的想法和算法,從頭設(shè)計(jì)了一種新的單目SALM系統(tǒng)所用到的技術(shù)包括Gálvez-López和Tardós提出的論文[5]中的閉環(huán)檢測,Strasdat等人在論文[6],[7]中提出的的閉環(huán)檢測程序和covisibility
graph,Kuemmerle等人在論文[37]中提出的g2o優(yōu)化框架以及Rubble等人提出的ORB特征[9]。到目前為止就我們所知,本文提出的ORB_SLAM方法的定位精度最高,也是最可靠最完整的單目SLAM系統(tǒng)。我們提出的新的生成和刪除關(guān)鍵幀策略,允許每個(gè)幾幀就創(chuàng)建一個(gè)關(guān)鍵幀,然后當(dāng)關(guān)鍵幀冗余時(shí)則刪除。這樣的構(gòu)圖方式很靈活,在外界條件很差的情況下可以保證系統(tǒng)正常運(yùn)行,比如相機(jī)作純旋轉(zhuǎn)運(yùn)動(dòng)或快速移動(dòng)時(shí)。當(dāng)算法在相同場景下運(yùn)行時(shí),地圖在只有拍攝到新內(nèi)容的情況下才會(huì)增長,可以從我們的長期構(gòu)圖結(jié)果中看到這個(gè)特性。
最后,我們還展示了ORB特征具有很好的識(shí)別能力,可識(shí)別劇烈視角變換情況下的場景信息。此外,它們能夠被非??焖俚奶崛『推ヅ洌ú恍枰嗑€程或GPU加速),這就使得跟蹤和地圖構(gòu)建更加實(shí)時(shí)精確。
B、離散/特征SLAM方法與稠密/直接SLAM方法對(duì)比
最近,DTAM[44]和LSD-SLAM[10]提出了一種實(shí)時(shí)單目SALM算法,算法直接利用圖像像素的亮度信息進(jìn)行攝像頭的定位與優(yōu)化,并重構(gòu)稠密或半稠密的環(huán)境地圖。這類方法即為直接法,直接方法不需要特征提取,可以避免人工匹配。他們對(duì)圖像模糊,弱紋理環(huán)境和像論文[45]這樣的高頻紋理環(huán)境的魯棒性更好。與由稀疏點(diǎn)構(gòu)建的地圖相比,比如ORB-SLAM或PTAM算法,稠密/直接法SLAM對(duì)相機(jī)定位之外的其他應(yīng)用任務(wù)可能更有用途。
部分重譯:
然而,直接方法有他們自己的局限。首先,這些方法假設(shè)真實(shí)場景中的物體的像是由該物體本身的表面反射模型產(chǎn)生的,因此,算法采用的光度一致性尋找匹配點(diǎn)的思路就限制了匹配點(diǎn)之間的基線距離,通常都比特征匹配點(diǎn)的基線要窄。這對(duì)重構(gòu)的精度影響很大,因?yàn)橹貥?gòu)需要較寬的基線來減少深度的不確定性。如果直接建模不準(zhǔn)確,則可能會(huì)受到快門,自動(dòng)增益和自動(dòng)曝光的影響(如TUM
RGB-D
的對(duì)比測試)。最后,由于直接方法計(jì)算要求較高,因此為了滿足計(jì)算速度,DTAM算法采用地圖增量式擴(kuò)張的方法,而LSD-SLAM則丟掉傳感器測量信息,將地圖優(yōu)化降低為對(duì)位姿圖的優(yōu)化。
相反,基于特征的方法可以在更寬的基線上匹配特征,主要得益于特征匹配算法較好地視圖不變特性。BA優(yōu)化和相機(jī)位姿優(yōu)化,地圖云點(diǎn)通過傳感器測量進(jìn)行融合。在運(yùn)動(dòng)結(jié)構(gòu)估計(jì)中,論文[46]已經(jīng)指出了基于特征的方法相比直接方法的優(yōu)勢。在我們的實(shí)驗(yàn)第8部分B節(jié)中也直接提供了證據(jù),,表明基于特征的定位精度更高。未來單目SLAM應(yīng)該會(huì)整合兩種最好的方法。
C、后續(xù)
我們系統(tǒng)的精度可以通過結(jié)合無限遠(yuǎn)點(diǎn)跟蹤來進(jìn)一步增強(qiáng)。這些在視圖中看不到的平行線交點(diǎn),并沒有包含在本文算法構(gòu)建的地圖中,但對(duì)相機(jī)的旋轉(zhuǎn)非常有用[21]。
另外一種方法是將稀疏地圖更新到一個(gè)更加稠密的地圖。由于我們關(guān)鍵幀的選擇機(jī)制,關(guān)鍵幀組成了一個(gè)緊湊的地圖,地圖具有非常高精度的位姿信息和豐富的covisibility信息。所以,ORB-SLAM稀疏地圖是一個(gè)非常優(yōu)秀的初始估計(jì)框架,比稠密地圖更好。這個(gè)方向的首次嘗試在論文[47]中有詳細(xì)描述。
附錄:非線性優(yōu)化
捆集調(diào)整(BA)
地圖云點(diǎn)3D位置 Xw,j∈R3,關(guān)鍵幀位姿Tiw∈SE(3)
W表示世界坐標(biāo),通過匹配的關(guān)鍵點(diǎn)Xi,j∈R2減少重投影誤差。
地圖云點(diǎn)j在關(guān)鍵幀i中的誤差是:
其中πi是影射函數(shù):

其中,Riw∈SO(3),tiw∈R3,分別表示Tiw的旋轉(zhuǎn)和平移部分
(fi,u , fi,v),(ci,u , ci,v)分別是相機(jī)i的焦點(diǎn)距離和主點(diǎn)。
代價(jià)函數(shù):
ρh是Huber魯棒代價(jià)函數(shù),Ωi,j=δi,j2I2x2是協(xié)方差矩陣,與檢測關(guān)鍵點(diǎn)的尺度有關(guān)。在全局捆集調(diào)整中(在初始化地圖中),我們優(yōu)化了所有云點(diǎn)和關(guān)鍵幀。
參考文獻(xiàn)
[1] B. Triggs, P. F. McLauchlan, R. I. Hartley, and A. W.
Fitzgibbon,“Bundle adjustment a modern synthesis,” in Vision algorithms:
theoryand practice, 2000, pp. 298–372.
[2] R. Hartley and A. Zisserman, Multiple View Geometry in ComputerVision, 2nd ed. Cambridge University Press, 2004.
[3] E. Mouragnon, M. Lhuillier, M. Dhome, F. Dekeyser, and P. Sayd,
“Realtime localization and 3d reconstruction,” in Computer Vision and
PatternRecognition, 2006 IEEE Computer Society Conference on, vol. 1,
2006,pp. 363–370.
[4] G. Klein and D. Murray, “Parallel tracking and mapping for small
ARworkspaces,” in IEEE and ACM International Symposium on Mixed
andAugmented Reality (ISMAR), Nara, Japan, November 2007, pp. 225–234.
[5] D. G′alvez-L′opez and J. D. Tard′os, “Bags of binary words for
fastplace recognition in image sequences,” IEEE Transactions on
Robotics,vol. 28, no. 5, pp. 1188–1197, 2012.
[6] H. Strasdat, J. M. M. Montiel, and A. J. Davison, “Scale
drift-awarelarge scale monocular SLAM.” in Robotics: Science and Systems
(RSS),Zaragoza, Spain, June 2010.
[7] H. Strasdat, A. J. Davison, J. M. M. Montiel, and K.
Konolige,“Double window optimisation for constant time visual SLAM,” in
IEEEInternational Conference on Computer Vision (ICCV), Barcelona,
Spain,November 2011, pp. 2352–2359.
[8] C. Mei, G. Sibley, and P. Newman, “Closing loops without places,”
inIEEE/RSJ International Conference on Intelligent Robots and
Systems(IROS), Taipei, Taiwan, October 2010, pp. 3738–3744.
[9] E. Rublee, V. Rabaud, K. Konolige, and G. Bradski, “ORB: an
efficientalternative to SIFT or SURF,” in IEEE International Conference
onComputer Vision (ICCV), Barcelona, Spain, November 2011, pp.
2564–2571.
[10] J. Engel, T. Sch¨ops, and D. Cremers, “LSD-SLAM: Large-scale
directmonocular SLAM,” in European Conference on Computer Vision(ECCV),
Zurich, Switzerland, September 2014, pp. 834–849.
[11] R. Mur-Artal and J. D. Tard′os, “Fast relocalisation and loop
closing inkeyframe-based SLAM,” in IEEE International Conference on
Roboticsand Automation (ICRA), Hong Kong, China, June 2014, pp. 846–853.
[12] ——, “ORB-SLAM: Tracking and mapping recognizable features,”
inMVIGRO Workshop at Robotics Science and Systems (RSS), Berkeley,USA,
July 2014.
[13] B. Williams, M. Cummins, J. Neira, P. Newman, I. Reid, and J.
D.Tard′os, “A comparison of loop closing techniques in monocular
SLAM,”Robotics and Autonomous Systems, vol. 57, no. 12, pp. 1188–1197,
2009.
[14] D. Nister and H. Stewenius, “Scalable recognition with a
vocabularytree,” in IEEE Computer Society Conference on Computer Vision
andPattern Recognition (CVPR), vol. 2, New York City, USA, June 2006,pp.
2161–2168.
[15] M. Cummins and P. Newman, “Appearance-only SLAM at large
scalewith FAB-MAP 2.0,” The International Journal of Robotics
Research,vol. 30, no. 9, pp. 1100–1123, 2011.
[16] M. Calonder, V. Lepetit, C. Strecha, and P. Fua, “BRIEF:
BinaryRobust Independent Elementary Features,” in European Conference
onComputer Vision (ECCV), Hersonissos, Greece, September 2010,
pp.778–792.
[17] E. Rosten and T. Drummond, “Machine learning for high-speed
cornerdetection,” in European Conference on Computer Vision (ECCV),
Graz,Austria, May 2006, pp. 430–443.
[18] H. Bay, T. Tuytelaars, and L. Van Gool, “SURF: Speeded Up
RobustFeatures,” in European Conference on Computer Vision (ECCV),
Graz,Austria, May 2006, pp. 404–417.
[19] D. G. Lowe, “Distinctive image features from scale-invariant
keypoints,”International Journal of Computer Vision, vol. 60, no. 2, pp.
91–110,2004.
[20] A. J. Davison, I. D. Reid, N. D. Molton, and O. Stasse,
“MonoSLAM:Real-time single camera SLAM,” IEEE Transactions on Pattern
Analysisand Machine Intelligence, vol. 29, no. 6, pp. 1052–1067, 2007.
[21] J. Civera, A. J. Davison, and J. M. M. Montiel, “Inverse
depthparametrization for monocular SLAM,” IEEE Transactions on
Robotics,vol. 24, no. 5, pp. 932–945, 2008.
[22] C. Forster, M. Pizzoli, and D. Scaramuzza, “SVO: Fast
semi-directmonocular visual odometry,” in Proc. IEEE Intl. Conf. on
Robotics andAutomation, Hong Kong, China, June 2014, pp. 15–22.
[23] O. D. Faugeras and F. Lustman, “Motion and structure from
motionin a piecewise planar environment,” International Journal of
PatternRecognition and Artificial Intelligence, vol. 2, no. 03, pp.
485–508, 1988.
[24] W. Tan, H. Liu, Z. Dong, G. Zhang, and H. Bao, “Robust
monocularSLAM in dynamic environments,” in IEEE International Symposium
onMixed and Augmented Reality (ISMAR), Adelaide, Australia, October2013,
pp. 209–218.
[25] H. Lim, J. Lim, and H. J. Kim, “Real-time 6-DOF monocular
visualSLAM in a large-scale environment,” in IEEE International
Conferenceon Robotics and Automation (ICRA), Hong Kong, China, June
2014, pp.1532–1539.
[26] D. Nist′er, “An efficient solution to the five-point relative
pose problem,”IEEE Transactions on Pattern Analysis and Machine
Intelligence,vol. 26, no. 6, pp. 756–770, 2004.
[27] H. Longuet-Higgins, “The reconstruction of a plane surface from
twoperspective projections,” Proceedings of the Royal Society of
London.Series B. Biological Sciences, vol. 227, no. 1249, pp. 399–410,
1986.
[28] P. H. Torr, A. W. Fitzgibbon, and A. Zisserman, “The problem
ofdegeneracy in structure and motion recovery from uncalibrated
imagesequences,” International Journal of Computer Vision, vol. 32, no.
1,pp. 27–44, 1999.
[29] A. Chiuso, P. Favaro, H. Jin, and S. Soatto, “Structure from
motioncausally integrated over time,” IEEE Transactions on Pattern
Analysisand Machine Intelligence, vol. 24, no. 4, pp. 523–535, 2002.
[30] E. Eade and T. Drummond, “Scalable monocular SLAM,” in IEEE
ComputerSociety Conference on Computer Vision and Pattern
Recognition(CVPR), vol. 1, New York City, USA, June 2006, pp. 469–476.
[31] H. Strasdat, J. M. M. Montiel, and A. J. Davison, “Visual SLAM:
Whyfilter?” Image and Vision Computing, vol. 30, no. 2, pp. 65–77, 2012.
[32] G. Klein and D. Murray, “Improving the agility of
keyframe-basedslam,” in European Conference on Computer Vision (ECCV),
Marseille,France, October 2008, pp. 802–815.
[33] K. Pirker, M. Ruther, and H. Bischof, “CD SLAM-continuous
localizationand mapping in a dynamic world,” in IEEE/RSJ
InternationalConference on Intelligent Robots and Systems (IROS), San
Francisco,USA, September 2011, pp. 3990–3997.
[34] S. Song, M. Chandraker, and C. C. Guest, “Parallel, real-time
monocularvisual odometry,” in IEEE International Conference on Robotics
andAutomation (ICRA), 2013, pp. 4698–4705.
[35] P. F. Alcantarilla, J. Nuevo, and A. Bartoli, “Fast explicit
diffusion foraccelerated features in nonlinear scale spaces,” in British
Machine VisionConference (BMVC), Bristol, UK, 2013.
[36] X. Yang and K.-T. Cheng, “LDB: An ultra-fast feature for
scalableaugmented reality on mobile devices,” in IEEE International
Symposiumon Mixed and Augmented Reality (ISMAR), 2012, pp. 49–57.
[37] R. Kuemmerle, G. Grisetti, H. Strasdat, K. Konolige, and W.
Burgard,“g2o: A general framework for graph optimization,” in IEEE
InternationalConference on Robotics and Automation (ICRA), Shanghai,
China,May 2011, pp. 3607–3613.
[38] J. Sturm, N. Engelhard, F. Endres, W. Burgard, and D. Cremers,
“Abenchmark for the evaluation of RGB-D SLAM systems,” in
IEEE/RSJInternational Conference on Intelligent Robots and Systems
(IROS),Vilamoura, Portugal, October 2012, pp. 573–580.
[39] M. Smith, I. Baldwin, W. Churchill, R. Paul, and P. Newman, “The
newcollege vision and laser data set,” The International Journal of
RoboticsResearch, vol. 28, no. 5, pp. 595–599, 2009.[40] A. Geiger, P.
Lenz, C. Stiller, and R. Urtasun, “Vision meets robotics:The KITTI
dataset,” The International Journal of Robotics Research,vol. 32, no.
11, pp. 1231–1237, 2013.
[41] V. Lepetit, F. Moreno-Noguer, and P. Fua, “EPnP: An accurate
O(n)solution to the PnP problem,” International Journal of Computer
Vision,vol. 81, no. 2, pp. 155–166, 2009.
[42] B. K. P. Horn, “Closed-form solution of absolute orientation
using unitquaternions,” Journal of the Optical Society of America A,
vol. 4, no. 4,pp. 629–642, 1987.
[43] F. Endres, J. Hess, J. Sturm, D. Cremers, and W. Burgard, “3-d
mappingwith an rgb-d camera,” IEEE Transactions on Robotics, vol. 30,
no. 1,pp. 177–187, 2014.
[44] R. A. Newcombe, S. J. Lovegrove, and A. J. Davison, “DTAM:
Densetracking and mapping in real-time,” in IEEE International
Conference onComputer Vision (ICCV), Barcelona, Spain, November 2011,
pp. 2320–2327.
[45] S. Lovegrove, A. J. Davison, and J. Ibanez-Guzm′an, “Accurate
visualodometry from a rear parking camera,” in IEEE Intelligent
VehiclesSymposium (IV), 2011, pp. 788–793.
[46] P. H. Torr and A. Zisserman, “Feature based methods for
structureand motion estimation,” in Vision Algorithms: Theory and
Practice.Springer, 2000, pp. 278–294.
[47] R. Mur-Artal and J. D. Tardos, “Probabilistic semi-dense mapping
fromhighly accurate feature-based monocular SLAM,” in Robotics:
Scienceand Systems (RSS), Rome, Italy, July 2015.
[48] H. Strasdat, “Local Accuracy and Global Consistency for
EfficientVisual SLAM,” Ph.D. dissertation, Imperial College, London,
October2012.