国内精品视频免费观看,内射精品无码中文字幕

Waymo首次公布技術(shù)細(xì)節(jié)，自動(dòng)駕駛老司機(jī)是這樣煉成的

2018-12-12 08:49

03 “合成壞司機(jī)”

從真實(shí)世界的駕駛中獲得的“好司機(jī)”駕駛行為中，通常只包含在良好情況下駕駛的例子，因?yàn)槌鲇诿黠@的原因，我們不希望我們的“好司機(jī)”駕駛陷入近碰撞或爬坡限制，只是為了向神經(jīng)網(wǎng)絡(luò)展示如何在這些情況下恢復(fù)。

為了訓(xùn)練網(wǎng)絡(luò)走出困境，模擬或綜合合適的訓(xùn)練數(shù)據(jù)是有意義的。一種簡(jiǎn)單的方法是加入一些例子，在這些例子中，我們干擾了“好司機(jī)”實(shí)際的駕駛軌跡。這種擾動(dòng)使得軌跡的起點(diǎn)和終點(diǎn)保持不變，偏離主要發(fā)生在中間。這教會(huì)神經(jīng)網(wǎng)絡(luò)如何從干擾中恢復(fù)。

不僅如此，這些擾動(dòng)還會(huì)產(chǎn)生與其他物體或道路限制物發(fā)生合成碰撞的例子，我們通過增加阻止此類碰撞的顯式損失來教會(huì)網(wǎng)絡(luò)避免這些碰撞。這些損失使我們能夠利用領(lǐng)域知識(shí)來指導(dǎo)學(xué)習(xí)在新的情況下更好地泛化。

通過將當(dāng)前Agent位置（紅點(diǎn)）從lane center拉出，然后擬合一個(gè)新的平滑軌跡，使agent沿lane center回到原來的目標(biāo)位置，從而對(duì)軌跡進(jìn)行擾動(dòng)。這項(xiàng)工作演示了一種使用合成數(shù)據(jù)的方法。除了我們的方法之外，還可以對(duì)高度交互或罕見情況進(jìn)行廣泛的模擬，同時(shí)使用強(qiáng)化學(xué)習(xí)（RL）調(diào)整驅(qū)動(dòng)策略。

然而，做RL需要我們精確地模擬環(huán)境中其他道路參與者的真實(shí)行為，包括其他車輛、行人和騎自行車的人。由于這個(gè)原因，我們?cè)诋?dāng)前的工作中專注于一種純粹的監(jiān)督學(xué)習(xí)方法，記住我們的模型可以用來創(chuàng)建自然行為的“智能代理”來引導(dǎo)RL。

04 實(shí)驗(yàn)結(jié)果

我們看到純模仿學(xué)習(xí)模型是如何在停著的車輛周圍無法移動(dòng)，并在偏離軌道時(shí)卡住的。通過一系列的綜合例子和輔助例子，ChauffeurNet的模型現(xiàn)在可以成功地繞過停著的車輛（1），并從軌跡偏離中恢復(fù)過來，沿著彎曲的道路（2）平穩(wěn)地繼續(xù)前進(jìn)。

在下面的示例中，我們將在模擬器的閉環(huán)設(shè)置中演示ChauffeurNet對(duì)日志示例中正確的因果因素的響應(yīng)。在3的動(dòng)畫中，我們看到ChauffeurNet 代理在停車標(biāo)志（紅色標(biāo)記）前完全停止。在4的動(dòng)畫中，我們從渲染的道路上移除stop－sign，并看到Agent不再完全停止，從而驗(yàn)證網(wǎng)絡(luò)正在響應(yīng)正確的因果因素。

動(dòng)圖5中，我們看到ChauffeurNet代理停在其他車輛（黃色框）后面，然后在其他車輛前進(jìn)時(shí)繼續(xù)前進(jìn)。動(dòng)圖6，我們從呈現(xiàn)的輸入中移除其他車輛，看到代理自然地沿著路徑繼續(xù)，因?yàn)樗穆窂街袥]有其他對(duì)象，驗(yàn)證網(wǎng)絡(luò)對(duì)場(chǎng)景中其他車輛的響應(yīng)。

動(dòng)圖7中，ChauffeurNet代理停止等待交通燈從黃色變?yōu)榧t色（注意交通燈渲染的強(qiáng)度變化，以車道中心的曲線顯示），而不是盲目地跟在其他車輛后面。

在模擬測(cè)試之后，我們將主計(jì)劃模塊替換為ChauffeurNet，并使用它在我們的私人測(cè)試軌道上駕駛一輛克萊斯勒Pacifica小型貨車。這些視頻展示了車輛成功地沿著彎曲的車道行駛，處理停車標(biāo)志和轉(zhuǎn)彎。

動(dòng)圖8演示了一個(gè)日志示例上PerceptionRNN的預(yù)測(cè)�；叵胍幌�，PerceptionRNN可以預(yù)測(cè)其他動(dòng)態(tài)對(duì)象的未來運(yùn)動(dòng)。紅色的軌跡表示場(chǎng)景中動(dòng)態(tài)物體過去的軌跡；綠色的軌跡表示每個(gè)物體在未來兩秒鐘內(nèi)的預(yù)測(cè)軌跡。

備注：5、6、7、8的動(dòng)圖都超過2M，壓縮了好久，剪輯都沒辦法達(dá)到微信要求的規(guī)格，所以請(qǐng)移步文后找到傳送門。后面的動(dòng)圖是，越來越復(fù)雜，顯示出Waymo在這方面的思考和變量增加對(duì)技術(shù)要求的提升，從而訓(xùn)練出更好的自動(dòng)駕駛老司機(jī)。

05 總結(jié)

長(zhǎng)尾理論、因果關(guān)系與終身學(xué)習(xí)

全自動(dòng)駕駛系統(tǒng)需要能夠處理現(xiàn)實(shí)世界中出現(xiàn)的長(zhǎng)尾情況。雖然深度學(xué)習(xí)在許多應(yīng)用中取得了相當(dāng)大的成功，但是如何處理缺乏培訓(xùn)數(shù)據(jù)的情況仍然是一個(gè)懸而未決的問題。

此外，深度學(xué)習(xí)識(shí)別訓(xùn)練數(shù)據(jù)中的相關(guān)性，但它不能通過純粹的觀察相關(guān)性建立因果模型，也不能在模擬中主動(dòng)測(cè)試反應(yīng)事實(shí)。了解“好司機(jī)”為什么會(huì)有這樣的行為，以及他們對(duì)什么做出了反應(yīng)，這對(duì)于建立一個(gè)因果駕駛模型至關(guān)重要。

因此，僅僅有大量的“好司機(jī)”駕駛行為來模仿是不夠的，理解為什么可以更容易地了解如何改進(jìn)這樣的系統(tǒng)，這對(duì)于安全關(guān)鍵的應(yīng)用程序尤其重要。此外，如果這些改進(jìn)能夠以增量的和有針對(duì)性的方式執(zhí)行，那么系統(tǒng)就可以繼續(xù)學(xué)習(xí)和不斷改進(jìn)，這種持續(xù)終生學(xué)習(xí)是機(jī)器學(xué)習(xí)社區(qū)中一個(gè)活躍的研究領(lǐng)域。

今天在Waymo車輛上運(yùn)行的規(guī)劃器結(jié)合了機(jī)器學(xué)習(xí)和明確的推理，不斷評(píng)估大量的可能性，并在各種不同場(chǎng)景下做出最佳駕駛決策，這些場(chǎng)景已經(jīng)磨練了超過1000萬英里的公路測(cè)試仿真數(shù)十億英里。

因此，用于替換Waymo規(guī)劃器的完全機(jī)器學(xué)習(xí)系統(tǒng)的標(biāo)準(zhǔn)非常高，盡管來自這樣的系統(tǒng)的組件可以在Waymo規(guī)劃器中使用，或者可以用于在模擬測(cè)試期間創(chuàng)建更真實(shí)的“智能代理”規(guī)劃師。

Waymo這次公布的是軟件方面的細(xì)節(jié)，我們希望Waymo在將來公布更多的細(xì)節(jié)，除了技術(shù)上的軟件細(xì)節(jié)，還包括硬件方案、成本以及Waymo One的運(yùn)營(yíng)細(xì)節(jié)。車智君將持續(xù)關(guān)注Waymo，這個(gè)自動(dòng)駕駛領(lǐng)域最好的學(xué)習(xí)對(duì)象。

<上一頁 1 2