來源 | CV研習(xí)社

導(dǎo)讀:3D目標(biāo)檢測的主要應(yīng)用場景就是自動駕駛,雖然現(xiàn)階段基于點云的3D目標(biāo)檢測的方法的性能不斷提升,但相比于激光雷達(dá)高昂的造價以及在復(fù)雜天氣情況下的敏感性。研究人員將目光投向了基于視覺的方案,因此單目3D目標(biāo)檢測逐漸成為了研究熱點。小編今天將為大家分享一篇名為Is Pseudo-Lidar needed for Monocular 3D Object detection的文章,文中提出了DD3D的方法,讓我們一起來學(xué)習(xí)一下吧。

Part 01 3D目標(biāo)檢測應(yīng)用背景

3D目標(biāo)檢測目前應(yīng)用的主要場景就是自動駕駛,汽車在行駛過程中,需要時刻感知周圍的環(huán)境,并及時獲取障礙物的3維信息。3維信息的獲取通常會依靠3D傳感器,如激光雷達(dá),雙目相機等,但此類傳感器成本通常較高。低成本的方案是通過單目相機結(jié)合深度估計的方式,目前該方案也在大力發(fā)展中。3D目標(biāo)檢測所使用的數(shù)據(jù)集大部分也就是自動駕駛數(shù)據(jù)集,類別主要是車輛和行人。通過3D目標(biāo)檢測算法,可以給出障礙物的3D bbox,可以精準(zhǔn)的判斷物體的位置和朝向,將該信息提供給規(guī)劃模塊,就可以對車輛的行駛路線進行合理的規(guī)劃。

Part 02 3D目標(biāo)檢測方法分類

按輸入數(shù)據(jù)類型來劃分,可分為:

單模:Lidar or Camera

多模:Lidar + Camera

按特征提取的方式來分,可分為:

Point Cloud:直接使用原始點云信息進行特征的提??;

Voxel:將點云通過網(wǎng)格的方式進行劃分,隨后提取網(wǎng)格的特征信息

2D View:將3D的信息投影到2D平面中,通常采用鳥瞰圖(BEV)的視角,隨后使用成熟的2D卷積網(wǎng)絡(luò)進行特征的提取;

Graph:利用圖的方式,對半徑R內(nèi)的點建立圖,隨后進行特征提??;

Part 03 DD3D網(wǎng)絡(luò)的提出

當(dāng)前,基于單目圖像做3D目標(biāo)檢測的一個主要方向是將單目深度估計整合進來預(yù)測三維點云,從而將相機轉(zhuǎn)變?yōu)閭渭す饫走_(dá)傳感器。而3D檢測效果的好壞與否和深度估計網(wǎng)絡(luò)的性能提升高度相關(guān)。同時此類方法大都是2階段的網(wǎng)絡(luò),通常網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜且容易過擬合。本文提出了一種end-to-end、single-stage的單目3D目標(biāo)檢測網(wǎng)絡(luò)DD3D(Dense Depth-pre-trained 3D Detector),網(wǎng)絡(luò)結(jié)構(gòu)圖如下:

免責(zé)聲明:本文僅代表文章作者的個人觀點,與本站無關(guān)。其原創(chuàng)性、真實性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容文字的真實性、完整性和原創(chuàng)性本站不作任何保證或承諾,請讀者僅作參考,并自行核實相關(guān)內(nèi)容。

舉報郵箱:3220065589@qq.com,如涉及版權(quán)問題,請聯(lián)系。