來源 |
1 前言
對(duì)于自動(dòng)駕駛應(yīng)用來說,最終還是需要對(duì)3D場(chǎng)景進(jìn)行感知。道理很簡單,車輛不能靠著一張圖像上得到感知結(jié)果來行駛,就算是人類司機(jī)也不能對(duì)著一張圖像來開車。因?yàn)槲矬w的距離和場(chǎng)景的和深度信息在2D感知結(jié)果上是體現(xiàn)不出來的,而這些信息才是自動(dòng)駕駛系統(tǒng)對(duì)周圍環(huán)境作出正確判斷的關(guān)鍵。
一般來說,自動(dòng)駕駛車輛的視覺傳感器(比如攝像頭)安裝在車身上方或者車內(nèi)后視鏡上。無論哪個(gè)位置,攝像頭所得到的都是真實(shí)世界在透視視圖(Perspective View)下的投影(世界坐標(biāo)系到圖像坐標(biāo)系)。這種視圖與人類的視覺系統(tǒng)很類似,因此很容易被人類駕駛員理解。但是透視視圖有一個(gè)致命的問題,就是物體的尺度隨著距離而變化。因此,當(dāng)感知系統(tǒng)從圖像上檢測(cè)到了前方有一個(gè)障礙物時(shí),它并不知道這個(gè)障礙物距離車輛的距離,也不知道障礙物的實(shí)際三維形狀和大小。
圖像坐標(biāo)系(透視視圖)vs. 世界坐標(biāo)系(鳥瞰視圖)[IPM-BEV]
想要得到3D空間的信息,一個(gè)最直接的方法就是采用激光雷達(dá)(LiDAR)。一方面,LiDAR輸出的3D點(diǎn)云可以直接用來獲取障礙物的距離和大?。?D物體檢測(cè)),以及場(chǎng)景的深度(3D語義分割)。另一方面,3D點(diǎn)云也可以與2D圖像進(jìn)行融合,以充分利用兩者所提供的不同信息:點(diǎn)云的優(yōu)勢(shì)在于距離和深度感知精確,而圖像的優(yōu)勢(shì)在于語義信息更加豐富。
但是,LiDAR也有其缺點(diǎn),比如成本較高,車規(guī)級(jí)產(chǎn)品量產(chǎn)困難,受天氣影響較大等等。因此,單純基于攝像頭的3D感知仍然是一個(gè)非常有意義和價(jià)值的研究方向。本文以下的部分會(huì)詳細(xì)介紹基于單攝像頭和雙攝像頭的3D感知算法。
2 單目3D感知
基于單攝像頭圖像來感知3D環(huán)境是一個(gè)病態(tài)問題,但是可以利用一些幾何約束和先驗(yàn)知識(shí)來輔助完成這個(gè)任務(wù),也可以采用深度神經(jīng)網(wǎng)絡(luò)端對(duì)端的學(xué)習(xí)如何從圖像特征來預(yù)測(cè)3D信息。
2.1 物體檢測(cè)
免責(zé)聲明:本文僅代表文章作者的個(gè)人觀點(diǎn),與本站無關(guān)。其原創(chuàng)性、真實(shí)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容文字的真實(shí)性、完整性和原創(chuàng)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并自行核實(shí)相關(guān)內(nèi)容。
舉報(bào)郵箱:3220065589@qq.com,如涉及版權(quán)問題,請(qǐng)聯(lián)系。
網(wǎng)友評(píng)論