用于預(yù)測單眼序列的深度和自我運動的雙視圖網(wǎng)絡(luò)

2019-06-04 16:55:08 編輯：來源：

導(dǎo)讀 TCS Research&Innovation的嵌入式系統(tǒng)和機器人小組的研究人員最近開發(fā)了一種雙視深度網(wǎng)絡(luò)，用于推斷連續(xù)單眼序列的深度和自我運動。他們的

TCS Research&Innovation的嵌入式系統(tǒng)和機器人小組的研究人員最近開發(fā)了一種雙視深度網(wǎng)絡(luò)，用于推斷連續(xù)單眼序列的深度和自我運動。他們的方法在預(yù)先發(fā)布在arXiv上的論文中提出，也包含了極線約束，這增強了網(wǎng)絡(luò)的幾何理解。

“我們的主要想法是嘗試直接從單個圖像序列預(yù)測像素深度和相機運動，”開展這項研究的研究人員Brojeshwar Bhowmick博士告訴TechXplore。“傳統(tǒng)上，基于運動的重建算法的結(jié)構(gòu)為圖像中的顯著興趣點提供稀疏深度輸出，使用多視圖幾何體在多個圖像上進行跟蹤。隨著深度學(xué)習在計算機視覺任務(wù)中越來越受歡迎，我們考慮利用現(xiàn)有的通過使用極線幾何和深度學(xué)習的概念組合，以更基本的方式解決問題，從而幫助我們的事業(yè)。“

大多數(shù)現(xiàn)有的用于預(yù)測單眼深度和自我運動的深度學(xué)習方法通??過將一個視圖扭曲成另一個視圖來優(yōu)化圖像序列中的光度一致性。然而，通過從單個視圖推斷深度，這些方法可能無法捕獲像素之間的關(guān)系，從而提供適當?shù)南袼貙?yīng)。

為了解決這些方法的局限性，Bhowmick和他的同事開發(fā)了一種結(jié)合了幾何計算機視覺和深度學(xué)習范例的新方法。他們的方法使用兩個神經(jīng)網(wǎng)絡(luò)，一個用于預(yù)測單個參考視圖的深度，一個用于預(yù)測一組視圖相對于參考視圖的相對姿勢。

“目標圖像場景可以通過基于深度和相對姿勢對它們進行翹曲來從任何給定姿勢重建，”Bhowmick解釋說。“鑒于這個重建的圖像和參考圖像，我們計算像素強度中的誤差，這是我們的主要損失。我們在整體上增加了使用每像素極線損失的概念，這是一種來自多視圖幾何的概念。損失，這確保了更好的對應(yīng)關(guān)系，并具有在場景中折扣移動物體的額外優(yōu)勢，否則會惡化學(xué)習。“

這種新方法不是通過分析單個圖像來預(yù)測深度??，而是通過分析來自視頻的一對圖像并學(xué)習像素間關(guān)系來預(yù)測深度??。它有點類似于傳統(tǒng)的SLAM / SfM算法，它可以隨時間觀察像素運動。

“我們研究中最有意義的發(fā)現(xiàn)是使用兩個視圖來預(yù)測深度??比單個圖像效果更好，并且即使通過極線約束執(zhí)行像素級別對應(yīng)也很有效，”Bhowmick說。“一旦這些方法成熟并且在普遍性方面有所提高，我們就可以將它們應(yīng)用于無人機的感知，其中人們希望通過消耗盡可能少的能量來提取最大的感官信息，這可以通過使用單個相機來實現(xiàn)。”

在初步評估中，研究人員發(fā)現(xiàn)他們的方法可以比現(xiàn)有方法更準確地預(yù)測深度，從而產(chǎn)生更清晰的深度估計和增強的姿態(tài)估計。但是，目前，他們的方法只能執(zhí)行像素級推斷。未來的工作可以通過將場景的語義集成到模型中來解決這種限制，這可能導(dǎo)致場景中的對象與深度和自我運動估計之間的更好的相關(guān)性。

“我們正在進一步探討這種方法和其他類似方法在室內(nèi)和室外各種場景中的普遍性，”Bhowmick說。“目前，大多數(shù)作品在室外數(shù)據(jù)上表現(xiàn)良好，例如駕駛數(shù)據(jù)，但在任意運動的室內(nèi)序列上表現(xiàn)非常差。”

標簽：雙視圖網(wǎng)絡(luò)