侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

Waymo首次公布技術(shù)細(xì)節(jié),自動(dòng)駕駛老司機(jī)是這樣煉成的

2018-12-12 08:49
車智
關(guān)注

03 “合成壞司機(jī)”

從真實(shí)世界的駕駛中獲得的“好司機(jī)”駕駛行為中,通常只包含在良好情況下駕駛的例子,因?yàn)槌鲇诿黠@的原因,我們不希望我們的“好司機(jī)”駕駛陷入近碰撞或爬坡限制,只是為了向神經(jīng)網(wǎng)絡(luò)展示如何在這些情況下恢復(fù)。

為了訓(xùn)練網(wǎng)絡(luò)走出困境,模擬或綜合合適的訓(xùn)練數(shù)據(jù)是有意義的。一種簡(jiǎn)單的方法是加入一些例子,在這些例子中,我們干擾了“好司機(jī)”實(shí)際的駕駛軌跡。這種擾動(dòng)使得軌跡的起點(diǎn)和終點(diǎn)保持不變,偏離主要發(fā)生在中間。這教會(huì)神經(jīng)網(wǎng)絡(luò)如何從干擾中恢復(fù)。

不僅如此,這些擾動(dòng)還會(huì)產(chǎn)生與其他物體或道路限制物發(fā)生合成碰撞的例子,我們通過增加阻止此類碰撞的顯式損失來教會(huì)網(wǎng)絡(luò)避免這些碰撞。這些損失使我們能夠利用領(lǐng)域知識(shí)來指導(dǎo)學(xué)習(xí)在新的情況下更好地泛化。

通過將當(dāng)前Agent位置(紅點(diǎn))從lane center拉出,然后擬合一個(gè)新的平滑軌跡,使agent沿lane center回到原來的目標(biāo)位置,從而對(duì)軌跡進(jìn)行擾動(dòng)。這項(xiàng)工作演示了一種使用合成數(shù)據(jù)的方法。除了我們的方法之外,還可以對(duì)高度交互或罕見情況進(jìn)行廣泛的模擬,同時(shí)使用強(qiáng)化學(xué)習(xí)(RL)調(diào)整驅(qū)動(dòng)策略。

然而,做RL需要我們精確地模擬環(huán)境中其他道路參與者的真實(shí)行為,包括其他車輛、行人和騎自行車的人。由于這個(gè)原因,我們?cè)诋?dāng)前的工作中專注于一種純粹的監(jiān)督學(xué)習(xí)方法,記住我們的模型可以用來創(chuàng)建自然行為的“智能代理”來引導(dǎo)RL。

04 實(shí)驗(yàn)結(jié)果

我們看到純模仿學(xué)習(xí)模型是如何在停著的車輛周圍無法移動(dòng),并在偏離軌道時(shí)卡住的。通過一系列的綜合例子和輔助例子,ChauffeurNet的模型現(xiàn)在可以成功地繞過停著的車輛(1),并從軌跡偏離中恢復(fù)過來,沿著彎曲的道路(2)平穩(wěn)地繼續(xù)前進(jìn)。

1

2

在下面的示例中,我們將在模擬器的閉環(huán)設(shè)置中演示ChauffeurNet對(duì)日志示例中正確的因果因素的響應(yīng)。在3的動(dòng)畫中,我們看到ChauffeurNet 代理在停車標(biāo)志(紅色標(biāo)記)前完全停止。在4的動(dòng)畫中,我們從渲染的道路上移除stop-sign,并看到Agent不再完全停止,從而驗(yàn)證網(wǎng)絡(luò)正在響應(yīng)正確的因果因素。

3

4

動(dòng)圖5中,我們看到ChauffeurNet代理停在其他車輛(黃色框)后面,然后在其他車輛前進(jìn)時(shí)繼續(xù)前進(jìn)。動(dòng)圖6,我們從呈現(xiàn)的輸入中移除其他車輛,看到代理自然地沿著路徑繼續(xù),因?yàn)樗穆窂街袥]有其他對(duì)象,驗(yàn)證網(wǎng)絡(luò)對(duì)場(chǎng)景中其他車輛的響應(yīng)。

動(dòng)圖7中,ChauffeurNet代理停止等待交通燈從黃色變?yōu)榧t色(注意交通燈渲染的強(qiáng)度變化,以車道中心的曲線顯示),而不是盲目地跟在其他車輛后面。

在模擬測(cè)試之后,我們將主計(jì)劃模塊替換為ChauffeurNet,并使用它在我們的私人測(cè)試軌道上駕駛一輛克萊斯勒Pacifica小型貨車。這些視頻展示了車輛成功地沿著彎曲的車道行駛,處理停車標(biāo)志和轉(zhuǎn)彎。

動(dòng)圖8演示了一個(gè)日志示例上PerceptionRNN的預(yù)測(cè);叵胍幌,PerceptionRNN可以預(yù)測(cè)其他動(dòng)態(tài)對(duì)象的未來運(yùn)動(dòng)。紅色的軌跡表示場(chǎng)景中動(dòng)態(tài)物體過去的軌跡;綠色的軌跡表示每個(gè)物體在未來兩秒鐘內(nèi)的預(yù)測(cè)軌跡。

備注:5、6、7、8的動(dòng)圖都超過2M,壓縮了好久,剪輯都沒辦法達(dá)到微信要求的規(guī)格,所以請(qǐng)移步文后找到傳送門。后面的動(dòng)圖是,越來越復(fù)雜,顯示出Waymo在這方面的思考和變量增加對(duì)技術(shù)要求的提升,從而訓(xùn)練出更好的自動(dòng)駕駛老司機(jī)。

05 總結(jié)

長(zhǎng)尾理論、因果關(guān)系與終身學(xué)習(xí)

全自動(dòng)駕駛系統(tǒng)需要能夠處理現(xiàn)實(shí)世界中出現(xiàn)的長(zhǎng)尾情況。雖然深度學(xué)習(xí)在許多應(yīng)用中取得了相當(dāng)大的成功,但是如何處理缺乏培訓(xùn)數(shù)據(jù)的情況仍然是一個(gè)懸而未決的問題。

此外,深度學(xué)習(xí)識(shí)別訓(xùn)練數(shù)據(jù)中的相關(guān)性,但它不能通過純粹的觀察相關(guān)性建立因果模型,也不能在模擬中主動(dòng)測(cè)試反應(yīng)事實(shí)。了解“好司機(jī)”為什么會(huì)有這樣的行為,以及他們對(duì)什么做出了反應(yīng),這對(duì)于建立一個(gè)因果駕駛模型至關(guān)重要。

因此,僅僅有大量的“好司機(jī)”駕駛行為來模仿是不夠的,理解為什么可以更容易地了解如何改進(jìn)這樣的系統(tǒng),這對(duì)于安全關(guān)鍵的應(yīng)用程序尤其重要。此外,如果這些改進(jìn)能夠以增量的和有針對(duì)性的方式執(zhí)行,那么系統(tǒng)就可以繼續(xù)學(xué)習(xí)和不斷改進(jìn),這種持續(xù)終生學(xué)習(xí)是機(jī)器學(xué)習(xí)社區(qū)中一個(gè)活躍的研究領(lǐng)域。

今天在Waymo車輛上運(yùn)行的規(guī)劃器結(jié)合了機(jī)器學(xué)習(xí)和明確的推理,不斷評(píng)估大量的可能性,并在各種不同場(chǎng)景下做出最佳駕駛決策,這些場(chǎng)景已經(jīng)磨練了超過1000萬英里的公路測(cè)試仿真數(shù)十億英里。

因此,用于替換Waymo規(guī)劃器的完全機(jī)器學(xué)習(xí)系統(tǒng)的標(biāo)準(zhǔn)非常高,盡管來自這樣的系統(tǒng)的組件可以在Waymo規(guī)劃器中使用,或者可以用于在模擬測(cè)試期間創(chuàng)建更真實(shí)的“智能代理”規(guī)劃師。

Waymo這次公布的是軟件方面的細(xì)節(jié),我們希望Waymo在將來公布更多的細(xì)節(jié),除了技術(shù)上的軟件細(xì)節(jié),還包括硬件方案、成本以及Waymo One的運(yùn)營(yíng)細(xì)節(jié)。車智君將持續(xù)關(guān)注Waymo,這個(gè)自動(dòng)駕駛領(lǐng)域最好的學(xué)習(xí)對(duì)象。

<上一頁  1  2  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)