新京報(bào)貝殼財(cái)經(jīng)訊（記者羅亦丹）2月22日，商湯絕影CEO，商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛在2025GDC全球開(kāi)發(fā)者先鋒大會(huì)上發(fā)布了端到端自動(dòng)駕駛技術(shù)路線R-UniAD，通過(guò)構(gòu)建世界模型生成在線交互的仿真環(huán)境，以此進(jìn)行端到端模型的強(qiáng)化學(xué)習(xí)訓(xùn)練。

“算法、算力和數(shù)據(jù)三者共同推動(dòng)著人工智能技術(shù)的螺旋式上升和進(jìn)步，隨著強(qiáng)化學(xué)習(xí)等算法引入到大模型訓(xùn)練的思路得到驗(yàn)證，新的尺度定律正在開(kāi)啟，數(shù)據(jù)價(jià)值被進(jìn)一步深入挖掘，模型能力天花板被打開(kāi)?！蓖鯐詣偙硎?。

近期，DeepSeek-R1基于純強(qiáng)化學(xué)習(xí)的關(guān)鍵創(chuàng)新引發(fā)了廣泛的關(guān)注。通過(guò)少量高質(zhì)量數(shù)據(jù)的冷啟動(dòng)，模型進(jìn)行多階段的強(qiáng)化學(xué)習(xí)訓(xùn)練，有效降低大模型訓(xùn)練的數(shù)據(jù)規(guī)模門檻。

王曉剛表示，基于強(qiáng)化學(xué)習(xí)的大模型技術(shù)路線也可以遷移到端到端自動(dòng)駕駛算法的訓(xùn)練與研發(fā)之中，“多階段強(qiáng)化學(xué)習(xí)的訓(xùn)練方法能大幅降低端到端自動(dòng)駕駛數(shù)據(jù)規(guī)模門檻。R-UniAD就是通過(guò)高質(zhì)量數(shù)據(jù)進(jìn)行冷啟動(dòng)，用模仿學(xué)習(xí)的方式訓(xùn)練出一個(gè)端到端基礎(chǔ)模型，再通過(guò)強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練。據(jù)測(cè)算，小樣本多階段學(xué)習(xí)的技術(shù)路線能讓端到端自動(dòng)駕駛的數(shù)據(jù)需求降低一個(gè)數(shù)量級(jí)。”

編輯韋英姿

校對(duì) 吳興發(fā)

22 +1

微博

微信

我要評(píng)論

直播

直播中

2025校歌會(huì)暨第11屆北京沙河高教園區(qū)文化交流月開(kāi)幕
3883人參與
預(yù) 告直播丨國(guó)新辦舉行“新征程上的奮斗者”中外記者見(jiàn)面會(huì)
2025-04-29 15:00
預(yù) 告直播丨國(guó)新辦舉行新聞發(fā)布會(huì) 介紹成都世運(yùn)會(huì)籌辦情況
2025-04-29 10:00
預(yù) 告直播丨五一小長(zhǎng)假即將開(kāi)啟體驗(yàn)出城路況交通樞紐晚高峰
2025-04-30 18:00

商湯絕影發(fā)布端到端自動(dòng)駕駛技術(shù)路線R-UniAD

我要評(píng)論

直播

熱點(diǎn)

最新

熱議