百度研究人員為自動(dòng)駕駛汽車開發(fā)了一種新的自動(dòng)調(diào)整框架

2019-06-11 17:20:18 編輯：來源：

導(dǎo)讀中國跨國科技公司百度的研究人員最近開發(fā)了一種基于Apollo自動(dòng)駕駛平臺(tái)的自動(dòng)駕駛車輛數(shù)據(jù)驅(qū)動(dòng)自動(dòng)調(diào)整框架。該框架在預(yù)先發(fā)布在arXiv上的

中國跨國科技公司百度的研究人員最近開發(fā)了一種基于Apollo自動(dòng)駕駛平臺(tái)的自動(dòng)駕駛車輛數(shù)據(jù)驅(qū)動(dòng)自動(dòng)調(diào)整框架。該框架在預(yù)先發(fā)布在arXiv上的論文中提出，包括一種新的強(qiáng)化學(xué)習(xí)算法和一種離線培訓(xùn)策略，以及一種收集和標(biāo)記數(shù)據(jù)的自動(dòng)方法。

用于自動(dòng)駕駛的運(yùn)動(dòng)規(guī)劃器是一種旨在產(chǎn)生安全且舒適的軌跡以到達(dá)期望目的地的系統(tǒng)。設(shè)計(jì)和調(diào)整這些系統(tǒng)以確保它們?cè)诓煌鸟{駛條件下表現(xiàn)良好是一項(xiàng)艱巨的任務(wù)，全球有幾家公司和研究人員正在努力解決這些問題。

“自動(dòng)駕駛汽車的運(yùn)動(dòng)規(guī)劃存在許多具有挑戰(zhàn)性的問題，”進(jìn)行這項(xiàng)研究的研究人員之一范浩陽告訴Tech Xplore。“一個(gè)主要的挑戰(zhàn)是它必須處理成千上萬的差異情景。通常，我們定義一個(gè)獎(jiǎng)勵(lì)/成本功能調(diào)整，可以調(diào)整情景中的這些差異。但是，我們發(fā)現(xiàn)這是一項(xiàng)艱巨的任務(wù)。”

通常，獎(jiǎng)勵(lì)成本功能調(diào)整需要代表研究人員進(jìn)行大量工作，以及在模擬和道路測(cè)試中花費(fèi)的資源和時(shí)間。此外，隨著時(shí)間的推移環(huán)境會(huì)發(fā)生顯著變化，并且隨著駕駛條件變得更加復(fù)雜，調(diào)整運(yùn)動(dòng)規(guī)劃器的性能變得越來越困難。

“為了系統(tǒng)地解決這個(gè)問題，我們開發(fā)了一個(gè)基于Apollo自動(dòng)駕駛框架的數(shù)據(jù)驅(qū)動(dòng)自動(dòng)調(diào)整框架，”范說。“自動(dòng)調(diào)整的想法是從人類展示的駕駛數(shù)據(jù)中學(xué)習(xí)參數(shù)。例如，我們希望從數(shù)據(jù)中了解人類駕駛員如何平衡速度和駕駛便利性與障礙物距離。但在更復(fù)雜的情況下，例如，擁擠城市，我們可以從人類司機(jī)那里學(xué)到什么?“

百度開發(fā)的自動(dòng)調(diào)整框架包括一種新的強(qiáng)化學(xué)習(xí)算法，可以從數(shù)據(jù)中學(xué)習(xí)并隨著時(shí)間的推移改善其性能。與大多數(shù)逆強(qiáng)化學(xué)習(xí)算法相比，它可以有效地應(yīng)用于不同的駕駛場(chǎng)景。

該框架還包括離線培訓(xùn)策略，為研究人員在公路上測(cè)試自動(dòng)駕駛汽車之前調(diào)整參數(shù)提供了一種安全的方法。它還從專家驅(qū)動(dòng)程序和環(huán)境信息中收集數(shù)據(jù)，自動(dòng)標(biāo)記這些數(shù)據(jù)，以便通過強(qiáng)化學(xué)習(xí)算法對(duì)其進(jìn)行分析。

“我認(rèn)為我們開發(fā)了一條安全的管道，通過使用人類演示數(shù)據(jù)，使機(jī)器學(xué)習(xí)可擴(kuò)展系統(tǒng)，”范說。“收集開環(huán)人體演示數(shù)據(jù)，不需要額外的標(biāo)簽。由于培訓(xùn)過程也是離線的，我們的方法適用于自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃，保持公路測(cè)試安全。”

研究人員評(píng)估了一個(gè)運(yùn)動(dòng)規(guī)劃師，他們使用他們的框架在模擬和公共道路測(cè)試中進(jìn)行了調(diào)整。與現(xiàn)有方法相比，它們的數(shù)據(jù)驅(qū)動(dòng)方法能夠更好地適應(yīng)不同的駕駛場(chǎng)景，在各種條件下始終如一地表現(xiàn)良好。

暹羅模型內(nèi)的價(jià)值網(wǎng)絡(luò)用于捕捉基于編碼特征的駕駛行為。網(wǎng)絡(luò)是在不同時(shí)間t = t0，...，t17的編碼獎(jiǎng)勵(lì)的可訓(xùn)練線性組合。編碼獎(jiǎng)勵(lì)的權(quán)重是可學(xué)習(xí)的時(shí)間衰減因子。編碼的獎(jiǎng)勵(lì)包括具有21個(gè)原始特征的輸入層和具有15個(gè)節(jié)點(diǎn)的隱藏層以覆蓋可能的交互。不同時(shí)間的獎(jiǎng)勵(lì)參數(shù)共享相同的θ以保持一致性。圖片來源：Fan等。

“我們的研究基于百度Apollo開源自動(dòng)駕駛平臺(tái)，”范說。“我們希望來自學(xué)術(shù)界和工業(yè)界的越來越多的人能夠通過Apollo為自動(dòng)駕駛生態(tài)系統(tǒng)做出貢獻(xiàn)。未來，我們計(jì)劃將百度Apollo 的當(dāng)前框架改進(jìn)為機(jī)器學(xué)習(xí)可擴(kuò)展系統(tǒng)，可以系統(tǒng)地改善自動(dòng)駕駛的情景覆蓋范圍。汽車。”

標(biāo)簽：自動(dòng)駕駛汽車