當(dāng)前位置:首頁 > 汽車百科 > > 蘋果自動駕駛新進(jìn)展:36塊錢訓(xùn)練百萬公里數(shù)據(jù),10天跑完16億公里

蘋果自動駕駛新進(jìn)展:36塊錢訓(xùn)練百萬公里數(shù)據(jù),10天跑完16億公里

發(fā)布時間:2025-08-16 08:42:26 來源:互聯(lián)網(wǎng) 分類:

文章摘要: 蘋果通過GIGAFLOW架構(gòu),實現(xiàn)自動駕駛技術(shù)的突破性進(jìn)展,以高效自監(jiān)督訓(xùn)練機制累積海量模擬駕駛經(jīng)驗,展現(xiàn)出卓越的零樣本泛化能力,為自動駕駛的未來開辟了新路徑,但仍需面對現(xiàn)實道路驗證與技術(shù)融合的挑戰(zhàn)。一天訓(xùn)練950年駕駛經(jīng)驗,蘋果讓自動駕駛自己“修仙”

蘋果通過GIGAFLOW架構(gòu),實現(xiàn)自動駕駛技術(shù)的突破性進(jìn)展,以高效自監(jiān)督訓(xùn)練機制累積海量模擬駕駛經(jīng)驗,展現(xiàn)出卓越的零樣本泛化能力,為自動駕駛的未來開辟了新路徑,但仍需面對現(xiàn)實道路驗證與技術(shù)融合的挑戰(zhàn)。

一天訓(xùn)練950年駕駛經(jīng)驗,蘋果讓自動駕駛自己“修仙”。

蘋果于機器學(xué)習(xí)研究頁揭秘自動駕駛新進(jìn)展,一日之內(nèi)累積950年駕駛智慧,仿佛讓汽車踏上“修仙”之旅。

這篇論文的突破性貢獻(xiàn)在于它創(chuàng)造性地推出了一款名為GIGAFLOW的全新大規(guī)模自博弈強化學(xué)習(xí)架構(gòu),并有力證實其能高效培育出既通用又具備高度穩(wěn)定性的駕駛方案。 從數(shù)據(jù)層面來看,借助這一革命性的自監(jiān)督訓(xùn)練機制,僅僅十天便能累積16億公里的模擬里程,這相當(dāng)于人類駕駛者9500年的行駛經(jīng)驗。換算到單日,則意味著每天可模擬出1.6億公里的行程與950年的駕駛智慧。 更引人矚目的是,這樣的訓(xùn)練成本極為經(jīng)濟,每百萬公里的模擬費用不到5美元(約36.1元人民幣),并且全程無需依賴真實世界的數(shù)據(jù)采集。 此番研究的發(fā)布,無疑昭示著蘋果雖已揮手告別電動汽車制造領(lǐng)域,但對汽車行業(yè)的熱情與探索并未因此熄滅?;蛟S在不久的將來,蘋果會在自動駕駛技術(shù)的舞臺上,再度祭出令人瞠目的創(chuàng)新之作。 回溯蘋果的汽車制造之旅,其始于2008年喬布斯親自掛帥的“泰坦計劃”。歷經(jīng)數(shù)次戰(zhàn)略轉(zhuǎn)型、團隊重構(gòu)與領(lǐng)導(dǎo)層的更迭,蘋果的目標(biāo)逐漸由全自動駕駛車輛向技術(shù)深耕偏移。然而,由于戰(zhàn)略定位模糊與執(zhí)行層面的乏力,蘋果始終未能拿出令人信服的產(chǎn)品。 直至2024年初,蘋果終于宣布終止電動汽車開發(fā)項目。據(jù)媒體披露,該項目已至少吞噬了蘋果100億美元(約721億元人民幣)的資金。這一決定不僅令人扼腕,也觸動了馬斯克、雷軍等科技界大佬的深切感慨。

GIGAFLOW——自博弈訓(xùn)練設(shè)計的新星 它以高效獲取訓(xùn)練經(jīng)驗為核心,構(gòu)建了一個專為自博弈而生的高度并行化模擬器與強化學(xué)習(xí)架構(gòu)。GIGAFLOW致力于通過虛擬手段,模擬出覆蓋數(shù)十億公里的駕駛場景,培育出兼容并蓄、應(yīng)對自如的駕駛策略,擺脫了對真實數(shù)據(jù)的依賴。其并行處理能力驚人,8塊GPU即可驅(qū)動3.84萬虛擬環(huán)境同頻共振,每小時催生4.4億次狀態(tài)更迭,這一速率,足以比擬42載真實駕駛歲月的積淀。

值得一提的是GIGAFLOW的模擬環(huán)境設(shè)計簡潔,但通過大規(guī)模自博弈的方式彌補了其設(shè)計上的簡化。

GIGAFLOW系統(tǒng)采納了8幅基礎(chǔ)地圖,各圖車道綿延4至40公里不等。這些地圖經(jīng)由隨機化處理,如縮放與鏡像翻轉(zhuǎn),衍生出多樣變體,交織成總長136公里的道路迷宮。在這片虛擬“疆域”里,智能體自隨機起點啟程,穿梭其間,歷經(jīng)多個中轉(zhuǎn)站,向隨機散布的終點進(jìn)發(fā)。

從交互決策的視角審視,這一環(huán)境中智能體(涵蓋車輛與行人等)的最大共存數(shù)量為150,它們遵循同一策略框架,卻能在不同參數(shù)條件下展現(xiàn)出多姿多彩的行為面貌,諸如激進(jìn)型駕駛與合規(guī)型駕駛等。 在訓(xùn)練歷程中,智能體憑借自我對弈的方式,逐步精通了繁復(fù)的駕駛技巧。 這些技巧囊括了在擁堵路段執(zhí)行“拉鏈?zhǔn)健辈⒕€、環(huán)島內(nèi)的協(xié)調(diào)行進(jìn)、狹窄空間中的多點掉頭,以及在遭遇事故或路障時的路徑重規(guī)劃。 尤為值得一提的是,所有這些精妙技巧均是在無預(yù)設(shè)劇本或人類示范的情形下,通過自我對弈自然而然浮現(xiàn)而出的。

GIGAFLOW在單節(jié)點上展現(xiàn)了驚人的能力,可以模擬3.84萬個并行環(huán)境,并借助GPU加速的物理計算和動態(tài)狀態(tài)壓縮技術(shù),顯著減少了內(nèi)存消耗與通信成本。就訓(xùn)練資源配置而言,GIGAFLOW的完整訓(xùn)練流程需2000GPU小時,耗時約10天,總計算量高達(dá)2.3×10^19FLOP,涵蓋16億公里的訓(xùn)練數(shù)據(jù)。參考AWS p4d實例(每節(jié)點8 GPU)的定價,整個訓(xùn)練過程的成本約為4.8萬美元,即人民幣34.56萬元,這一價格相較于同類強化學(xué)習(xí)方案,展現(xiàn)出極高的性價比。

除了依賴人類數(shù)據(jù)進(jìn)行模仿學(xué)習(xí)所帶來的高昂標(biāo)注成本外,GIGAFLOW巧妙規(guī)避了此項費用。其利用優(yōu)勢過濾技術(shù),通過動態(tài)閾值智能剔除低質(zhì)樣本,使反向傳播計算量銳減約80%。更令人稱奇的是,所有交通參與者,無論是車輛還是行人,均共享同一策略網(wǎng)絡(luò),從而有效避免了多模型訓(xùn)練的龐大開銷。。

此外,GIGAFLOW采用了一種創(chuàng)新手段,即通過預(yù)先離線處理地圖的柵格特征,諸如車道布局與交通信號位置,來減輕實時計算的負(fù)擔(dān)。盡管如此,GIGAFLOW仍面臨成本方面的掣肘,特別是對高性能8 GPU節(jié)點的依賴,存在實施難度。要想確保這一策略的穩(wěn)健性,需歷經(jīng)高于15億公里的訓(xùn)練里程,短期訓(xùn)練難以達(dá)成預(yù)期效果。加之車輛動態(tài)特性和獎勵函數(shù)的即時隨機化處理,還會額外增加約15%的計算壓力??梢哉f,GIGAFLOW為自動駕駛訓(xùn)練指明了前行方向,但距離實現(xiàn)“顛覆性”飛躍尚有距離。

能力超越基準(zhǔn)

未來仍有改進(jìn)空間

在基準(zhǔn)測試舞臺上,GIGAFLOW策略展現(xiàn)出了非凡的零樣本泛化實力,這一能力在三大自動駕駛領(lǐng)域的標(biāo)桿測試中得到了有力證明:CARLA、nuPlan與Waymax。CARLA側(cè)重于工匠級駕駛場景的設(shè)計,考量長途駕駛的穩(wěn)定性;nuPlan則依據(jù)真實駕駛記錄,檢驗短途駕駛的敏銳度;而Waymax,借助Waymo Open Motion Dataset塑造的模擬天地,挑戰(zhàn)復(fù)雜路況下的駕駛智慧。

測試結(jié)果揭曉,GIGAFLOW策略在各項基準(zhǔn)測試中均力壓專為基準(zhǔn)設(shè)計的專家模型,彰顯卓越的零樣本泛化實力。即便未經(jīng)任何基準(zhǔn)特定微調(diào),其表現(xiàn)仍超越那些精心優(yōu)化的模型。于CARLA模擬環(huán)境中,GIGAFLOW策略靈活應(yīng)對行人突發(fā)穿行、擁堵路口等復(fù)雜路況,展現(xiàn)出非凡的應(yīng)對能力。

在nuPlan與Waymax的基準(zhǔn)測評里,GIGAFLOW策略彰顯出流暢且可靠的駕駛表現(xiàn)。深入分析揭示,該策略在維持長時間駕駛穩(wěn)定性上同樣出類拔萃。在減少動態(tài)干擾、提升操控頻次的環(huán)境下,智能體平均行駛1750萬公里才遭遇一次事故,相比之下,美國人類駕駛者的平均事故率則為每82.9萬公里便發(fā)生一次。

除此之外,研究者們對GIGAFLOW策略的行為特質(zhì)進(jìn)行了深刻的剖析,它具備前瞻性的決策智慧,能依據(jù)未來潛在情境(諸如150米外的道路障礙)靈活調(diào)整駕駛動作;同時,其駕駛風(fēng)格多變,通過調(diào)整參數(shù)配置,策略能輕松切換從保守至激進(jìn)的多種模式;在涉及多車協(xié)同的復(fù)雜局面(例如車流交匯)中,策略同樣展現(xiàn)出靈動且流暢的反應(yīng)。 然而,即便在這一領(lǐng)域取得了顯著成就,項目團隊依然面臨諸多待解之題。誠然,該策略減少了對手動數(shù)據(jù)搜集的依賴,能孕育多樣化的駕駛表現(xiàn),但其研究邊界依舊清晰可見。 首要問題在于,純模擬環(huán)境下的訓(xùn)練策略尚未在現(xiàn)實道路上經(jīng)受檢驗,其真實應(yīng)用效果尚屬未知。 再者,研究預(yù)設(shè)感知系統(tǒng)無瑕,但在真實情境中,傳感器偏差與環(huán)境變量的不確定性或許會對策略性能造成顯著沖擊。 最后,盡管自博弈展現(xiàn)了出色的泛化潛力,但如何將其與人類數(shù)據(jù)驅(qū)動的模仿學(xué)習(xí)巧妙融合,仍是未來探索的重要課題。

蘋果自動駕駛新進(jìn)展:36塊錢訓(xùn)練百萬公里數(shù)據(jù),10天跑完16億公里

http://www.albertseijas.com/news/24caj409f8cd.html

本文由入駐排行8資訊專欄的作者撰寫或者網(wǎng)上轉(zhuǎn)載,觀點僅代表作者本人,不代表排行8立場。不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 paihang8kefu@163.com 舉報,一經(jīng)查實,本站將立刻刪除。

文章標(biāo)簽: 蘋果自動駕駛新進(jìn)展:36塊錢訓(xùn)練百萬公里數(shù)據(jù),10天跑完16億公里