使用感興趣區(qū)域打包在視頻中快速檢測對象

2019-06-10 17:30:14 編輯：來源：

導(dǎo)讀羅伯特博世數(shù)據(jù)科學(xué)和人工智能中心和計算腦研究中心，印度理工學(xué)院馬德拉斯和普渡大學(xué)的研究人員最近開發(fā)出一種新方法，用于減少使用神經(jīng)網(wǎng)

羅伯特博世數(shù)據(jù)科學(xué)和人工智能中心和計算腦研究中心，印度理工學(xué)院馬德拉斯和普渡大學(xué)的研究人員最近開發(fā)出一種新方法，用于減少使用神經(jīng)網(wǎng)絡(luò)的視頻中物體檢測的計算要求。他們的技術(shù)稱為Pack and Detect(PaD)，在arXiv上發(fā)表的一篇論文中進行了概述。

對象檢測是許多計算機視覺應(yīng)用的關(guān)鍵方面，例如對象跟蹤，視頻摘要和視頻搜索。雖然最近機器學(xué)習(xí)的進步已經(jīng)導(dǎo)致開發(fā)用于完成該任務(wù)的越來越精確的工具，但是現(xiàn)有方法仍然在計算上非常密集。例如，使用SSD300 對象檢測網(wǎng)絡(luò)以300 x 300分辨率處理視頻，以VGG16為主干，以30 fps為單位，每秒需要1.87萬億次浮點運算(FLOPS)。

研究人員觀察到，在某些情況下，視頻幀中的大多數(shù)區(qū)域僅僅是背景，顯著對象僅占據(jù)幀中區(qū)域的一小部分。此外，他們發(fā)現(xiàn)連續(xù)幀之間存在強烈的時間相關(guān)性。他們利用這些觀察結(jié)果，提出了一種新的視頻對象檢測技術(shù)，可以降低對象檢測任務(wù)的計算要求。

“我們受到了生物和人工視覺系統(tǒng)中的中央凹機制的啟發(fā)，”開展這項研究的研究人員之一的Athindran Ramesh Kumar告訴TechXplore。“以前關(guān)于人工視覺系統(tǒng)中的中心凹注意力機制的研究只關(guān)注圖像中的一個區(qū)域或一次只關(guān)注一個物體。我們想知道如果它能夠立即聚焦在場景中的所有顯著區(qū)域，視覺系統(tǒng)將是怎樣的。 “。

因此，研究人員設(shè)計的物體檢測方法受到生物視覺系統(tǒng)的啟發(fā)。然而，與先前的嘗試相反，他們的系統(tǒng)將所有感興趣的區(qū)域一起打包在單個幀中，而不是順序地處理它們。

“我們的工作目標(biāo)是通過僅關(guān)注框架中的顯著區(qū)域并消除背景雜亂來加速視頻中的物體檢測，”進行這項研究的另一位研究員Balaraman Ravindran告訴TechXplore。“為了消除背景雜亂，我們利用了視頻中相鄰幀之間的時間相關(guān)性。這是視頻壓縮技術(shù)用來降低存儲和帶寬要求的屬性;我們用它來加速計算。”

PaD，Ravindran及其同事提出的物體檢測方法是通過以全尺寸定期處理幀來工作。這些幀被稱為“錨幀”。另一方面，在所有其他幀中，工具基于對象在前一幀中的位置來識別感興趣的區(qū)域。

“這些感興趣的區(qū)域像拼貼一樣排列在一起，用作物體探測器的輸入，”進行這項研究的研究人員之一Anand Raghunathan告訴TechXplore。“然后將檢測結(jié)果映射回原始圖像中的位置。這種方法更快，因為拼貼圖像的尺寸小于全幀。我們利用SSD300等流行物體檢測器的靈活性來處理全尺寸圖像和更小的尺寸。“

研究人員在ImageNet VID數(shù)據(jù)集上評估了他們的方法，發(fā)現(xiàn)它的加速時間為1.25倍，精度下降不到1.6%。此外，他們觀察到處理較小尺寸幀所需的時間幾乎減少了三倍，F(xiàn)LOP計數(shù)減少了四倍。

此外，他們的研究突出了兩個重要方面，可以為開發(fā)更快，更少計算密集的方法來檢測視頻中的對象提供信息。首先，感興趣的對象通常僅占據(jù)幀中的一小部分像素; 第二，視頻中相鄰幀之間存在相關(guān)性。

“我們的工作可以通過降低計算要求，幫助在物聯(lián)網(wǎng)邊緣的資源受限設(shè)備上實現(xiàn)視頻分析，或者可以改善云中服務(wù)器可能處理的視頻流數(shù)量，”Athindran說。

該研究小組開展的這項研究是開發(fā)更有效的物體檢測工具的第一步。他們現(xiàn)在正計劃進一步調(diào)查，以進一步改進他們的方法。

例如，目前，PaD定期選擇錨幀，但研究人員可以開發(fā)一種動態(tài)識別這些關(guān)鍵幀的機制。他們還計劃在更加資源有限的硬件中測試他們的技術(shù)，例如智能手機，可穿戴設(shè)備和智能家用電器。

“我們手工制作了一種算法來推斷感興趣的區(qū)域并形成拼貼圖像，”拉文德蘭說。“但是一個完全神經(jīng)系統(tǒng)會有神經(jīng)網(wǎng)絡(luò)，可以根據(jù)前一幀產(chǎn)生拼貼圖像。這是一個更加雄心勃勃的未來工作路線。”

標(biāo)簽：快速檢測對象

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

精彩推薦

圖文推薦

點擊排行

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。

使用感興趣區(qū)域打包在視頻中快速檢測對象

猜你喜歡

最新文章

精彩推薦

圖文推薦

點擊排行