2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
羅伯特博世數(shù)據(jù)科學(xué)和人工智能中心和計算腦研究中心,印度理工學(xué)院馬德拉斯和普渡大學(xué)的研究人員最近開發(fā)出一種新方法,用于減少使用神經(jīng)網(wǎng)絡(luò)的視頻中物體檢測的計算要求。他們的技術(shù)稱為Pack and Detect(PaD),在arXiv上發(fā)表的一篇論文中進行了概述。
對象檢測是許多計算機視覺應(yīng)用的關(guān)鍵方面,例如對象跟蹤,視頻摘要和視頻搜索。雖然最近機器學(xué)習(xí)的進步已經(jīng)導(dǎo)致開發(fā)用于完成該任務(wù)的越來越精確的工具,但是現(xiàn)有方法仍然在計算上非常密集。例如,使用SSD300 對象檢測網(wǎng)絡(luò)以300 x 300分辨率處理視頻,以VGG16為主干,以30 fps為單位,每秒需要1.87萬億次浮點運算(FLOPS)。
研究人員觀察到,在某些情況下,視頻幀中的大多數(shù)區(qū)域僅僅是背景,顯著對象僅占據(jù)幀中區(qū)域的一小部分。此外,他們發(fā)現(xiàn)連續(xù)幀之間存在強烈的時間相關(guān)性。他們利用這些觀察結(jié)果,提出了一種新的視頻對象檢測技術(shù),可以降低對象檢測任務(wù)的計算要求。
“我們受到了生物和人工視覺系統(tǒng)中的中央凹機制的啟發(fā),”開展這項研究的研究人員之一的Athindran Ramesh Kumar告訴TechXplore。“以前關(guān)于人工視覺系統(tǒng)中的中心凹注意力機制的研究只關(guān)注圖像中的一個區(qū)域或一次只關(guān)注一個物體。我們想知道如果它能夠立即聚焦在場景中的所有顯著區(qū)域,視覺系統(tǒng)將是怎樣的。 “。
因此,研究人員設(shè)計的物體檢測方法受到生物視覺系統(tǒng)的啟發(fā)。然而,與先前的嘗試相反,他們的系統(tǒng)將所有感興趣的區(qū)域一起打包在單個幀中,而不是順序地處理它們。
“我們的工作目標(biāo)是通過僅關(guān)注框架中的顯著區(qū)域并消除背景雜亂來加速視頻中的物體檢測,”進行這項研究的另一位研究員Balaraman Ravindran告訴TechXplore。“為了消除背景雜亂,我們利用了視頻中相鄰幀之間的時間相關(guān)性。這是視頻壓縮技術(shù)用來降低存儲和帶寬要求的屬性;我們用它來加速計算。”
PaD,Ravindran及其同事提出的物體檢測方法是通過以全尺寸定期處理幀來工作。這些幀被稱為“錨幀”。另一方面,在所有其他幀中,工具基于對象在前一幀中的位置來識別感興趣的區(qū)域。
“這些感興趣的區(qū)域像拼貼一樣排列在一起,用作物體探測器的輸入,”進行這項研究的研究人員之一Anand Raghunathan告訴TechXplore。“然后將檢測結(jié)果映射回原始圖像中的位置。這種方法更快,因為拼貼圖像的尺寸小于全幀。我們利用SSD300等流行物體檢測器的靈活性來處理全尺寸圖像和更小的尺寸。“
研究人員在ImageNet VID數(shù)據(jù)集上評估了他們的方法,發(fā)現(xiàn)它的加速時間為1.25倍,精度下降不到1.6%。此外,他們觀察到處理較小尺寸幀所需的時間幾乎減少了三倍,F(xiàn)LOP計數(shù)減少了四倍。
此外,他們的研究突出了兩個重要方面,可以為開發(fā)更快,更少計算密集的方法來檢測視頻中的對象提供信息。首先,感興趣的對象通常僅占據(jù)幀中的一小部分像素; 第二,視頻中相鄰幀之間存在相關(guān)性。
“我們的工作可以通過降低計算要求,幫助在物聯(lián)網(wǎng)邊緣的資源受限設(shè)備上實現(xiàn)視頻分析,或者可以改善云中服務(wù)器可能處理的視頻流數(shù)量,”Athindran說。
該研究小組開展的這項研究是開發(fā)更有效的物體檢測工具的第一步。他們現(xiàn)在正計劃進一步調(diào)查,以進一步改進他們的方法。
例如,目前,PaD定期選擇錨幀,但研究人員可以開發(fā)一種動態(tài)識別這些關(guān)鍵幀的機制。他們還計劃在更加資源有限的硬件中測試他們的技術(shù),例如智能手機,可穿戴設(shè)備和智能家用電器。
“我們手工制作了一種算法來推斷感興趣的區(qū)域并形成拼貼圖像,”拉文德蘭說。“但是一個完全神經(jīng)系統(tǒng)會有神經(jīng)網(wǎng)絡(luò),可以根據(jù)前一幀產(chǎn)生拼貼圖像。這是一個更加雄心勃勃的未來工作路線。”
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。