別人剛上「端到端」,理想智駕卻又迭代了

愛(ài)范兒 整合編輯:太平洋科技 發(fā)布于:2024-10-30 18:26

在寫(xiě)下這篇文章的前一天,兩位汽車行業(yè)朋友來(lái)到愛(ài)范兒,和我們坐下聊了聊。聊到的內(nèi)容有很多,從產(chǎn)品推廣到行業(yè)趣聞,而自動(dòng)駕駛作為行業(yè)熱議的一個(gè)分支,自然也成為了我們討論的焦點(diǎn)之一;仡欁詣(dòng)駕駛這些年來(lái)的發(fā)展,變化其實(shí)有不少,包括傳感器的迭代、車端算力的提升、從高精地圖過(guò)渡到占用網(wǎng)絡(luò)等。但在這些變化中,最引人注目的突破當(dāng)屬大模型的加入。

大模型,讓自動(dòng)駕駛技術(shù)的應(yīng)用,變得觸手可及。

10 月 23 日,理想汽車全新一代雙系統(tǒng)智能駕駛解決方案「端到端+VLM」正式開(kāi)始全量推送,理想汽車的智能駕駛,從此步入了 AI 大模型的時(shí)代。

像人一樣思考,像人一樣駕駛,如今的理想汽車,正在實(shí)現(xiàn)這一愿景。

好不容易搞懂了端到端,VLM 又是什么?

關(guān)于端到端到底是什么?是從哪個(gè)「端」到哪個(gè)「端」?別說(shuō)普通消費(fèi)者了,就連不少媒體從業(yè)者都沒(méi)有搞清楚。

不少?gòu)S商都曾對(duì)此做出過(guò)解釋,其中解釋得最通俗易懂的,還是理想汽車:

一端,是傳感器:攝像頭、激光雷達(dá)等傳感器,它們就像是人的眼睛,負(fù)責(zé)輸入環(huán)境信息。此外還有特別設(shè)計(jì)的輸入信息,如車輛的位置、位姿和導(dǎo)航等信息。
另一端,是行駛軌跡:接收了來(lái)自傳感器的信息后,系統(tǒng)會(huì)輸出「動(dòng)態(tài)障礙物」、「道路結(jié)構(gòu)」、「占用網(wǎng)絡(luò) Occ」和「規(guī)劃軌跡」。前三個(gè)感知任務(wù)主要通過(guò)屏幕呈現(xiàn)給用戶,第四個(gè)「行駛軌跡」,就是我們最終需要從傳感器映射出來(lái)的東西。

理想智駕端到端架構(gòu)圖

不難發(fā)現(xiàn),從傳感器接收信息,到系統(tǒng)輸出行駛軌跡這個(gè)過(guò)程,和我們自己開(kāi)車非常類似——我們的眼睛負(fù)責(zé)接收信息,雙手會(huì)自然而然地帶動(dòng)方向盤(pán),把車輛帶到正確的軌跡上。

是的,依靠端到端模型,理想新一代智駕系統(tǒng)做到了像人一樣駕駛。

一直以來(lái),無(wú)論是主機(jī)廠還是自動(dòng)駕駛企業(yè),都在不斷宣傳自家的智駕系統(tǒng)有多么類人,多么像「老司機(jī)」。然而,一些「老司機(jī)」們習(xí)以為常的場(chǎng)景,在很長(zhǎng)一段時(shí)間里,都是難以解決的行業(yè)難題。

最典型的就是環(huán)島這一場(chǎng)景,因?yàn)閳?chǎng)景復(fù)雜、感知受限,因此在今年 7 月之前,還沒(méi)有幾家車企能夠?qū)崿F(xiàn)「老司機(jī)」般的進(jìn)出環(huán)島。

理想智駕技術(shù)研發(fā)負(fù)責(zé)人賈鵬曾對(duì)愛(ài)范兒和董車會(huì)表示,對(duì)于感知和規(guī)控分離的分段式智駕方案來(lái)說(shuō),在環(huán)島場(chǎng)景里,感知模型需要為規(guī)控模型做「各種各樣的假設(shè)!

做個(gè)掉頭,還得把掉頭線擬合出來(lái),不同的路口的掉頭還不太一樣,曲率都不太一樣,所以你很難做到一套代碼就可以把所有環(huán)島掉頭搞定,種類太多了。

一體式的端到端方案則不同,其具備更強(qiáng)的復(fù)雜道路結(jié)構(gòu)的理解能力,可以運(yùn)用人類駕駛員數(shù)據(jù)訓(xùn)練出不同的環(huán)島類型、不同出入口的進(jìn)出軌跡,自主選擇合適的行進(jìn)路線。

如此一來(lái),原有的道路拓?fù)浜腿斯ざx的規(guī)則,就再是必須的了。

關(guān)于環(huán)島這件事,賈鵬還分享過(guò)一個(gè)「好玩的故事」。

在我們(的模型數(shù)據(jù)包含)大概 80 萬(wàn) clips(視頻片段)的時(shí)候,還過(guò)不了環(huán)島,后來(lái)突然有一天發(fā)現(xiàn)我們(喂了)100 萬(wàn) Clips(之后)它自己能過(guò)環(huán)島,我覺(jué)得是 100 萬(wàn)(視頻片段)里頭剛好有一些環(huán)島數(shù)據(jù)放在里面了。

「模型確實(shí)很厲害,」賈鵬補(bǔ)充道,「你喂了什么數(shù)據(jù)他就能學(xué)會(huì),這是模型的魅力所在。」

理想如今推出的全量版本基于 V4.8.6 模型,后者是在 400 萬(wàn) clips 的基礎(chǔ)上迭代的第 16 個(gè)版本。和以往相比,新模型對(duì)于超車場(chǎng)景和導(dǎo)航信息的理解能力得到提升,同時(shí),障礙物的檢測(cè)更加精準(zhǔn),繞行的幅度也更為合理。

因此不僅是環(huán)島,像 U 型掉頭、擁堵時(shí)的蠕行和博弈、十字路口等傳統(tǒng)復(fù)雜場(chǎng)景,如今的「端到端+VLM」智駕系統(tǒng),都能夠很好地自主處理,甚至還支持 P 檔激活——

在路邊停車時(shí),用戶原地雙擊撥桿來(lái)激活智駕系統(tǒng),不必再像以前一樣,必須在車道內(nèi)才能激活。

介紹完端到端模型的能力,接下來(lái)就是 VLM 模型。

VLM 模型是一種視覺(jué)語(yǔ)言模型,理想是第一個(gè)將視覺(jué)語(yǔ)言模型成功部署在車端芯片的廠商,使自動(dòng)駕駛具備了未知場(chǎng)景的邏輯思考能力。

也就是說(shuō),它能夠像人一樣思考。

舉個(gè)例子,能夠生成行駛軌跡的端到端模型,完全具備通過(guò)收費(fèi)站的能力,但它在面對(duì)收費(fèi)站時(shí),并不是很清楚自己應(yīng)該走哪條道,最后只能隨便挑一條來(lái)走。

而 VLM 模型,則能夠像人類一樣理解物理世界的復(fù)雜交通環(huán)境和中文語(yǔ)義,可以清楚地分辨 ETC 車道和人工車道,并輔助端到端模型做出正確的決策。

類似的場(chǎng)景其實(shí)還有很多,如公交車道和潮汐車道的識(shí)別、學(xué)校路段等路牌的識(shí)別、主輔路的進(jìn)出等。不僅如此,在遇到施工場(chǎng)景、坑洼路面甚至是減速帶時(shí),VLM 模型也能很好地理解,進(jìn)行提醒和降速。

截至目前,理想汽車的 VLM 視覺(jué)語(yǔ)言模型已經(jīng)擁有了 22 億的參數(shù)量,對(duì)物理世界的復(fù)雜交通環(huán)境具有更擬人的理解能力。

此外,在 OTA 6.4 版本中,高速 NOA 功能也得到了優(yōu)化,在高速 & 城市快速路場(chǎng)景中,系統(tǒng)可以更早地識(shí)別前方慢車,超車動(dòng)作更加高效安全。

總而言之,在端到端+VLM 雙系統(tǒng)的幫助下,如今面向用戶的 OTA 6.4,其擬人化程度上到了一個(gè)新的臺(tái)階。

理想的「快」與「慢」

從技術(shù)架構(gòu)來(lái)看,理想汽車這兩年經(jīng)歷了三次比較大的調(diào)整。

從需要先驗(yàn)信息的 NPN 網(wǎng)絡(luò),再到基于 BEV 和占用網(wǎng)絡(luò)的無(wú)圖 NOA,再到如今的一體化端到端技術(shù)路線。

第一代 NPN 架構(gòu)比較復(fù)雜,包含了感知、定位、規(guī)劃、導(dǎo)航、NPN 等模塊,它們共同支撐起了理想汽車當(dāng)時(shí) 100 城的城市 NOA 推送。

第二代無(wú)圖 NOA,理想汽車引入了端到端大模型,模塊數(shù)量大幅縮減,只剩下了感知和規(guī)劃,不再需要等待先驗(yàn)信息的更新。

理想的這一步,讓車企的「卷」,不再局限于無(wú)聊的開(kāi)城數(shù)量,真正實(shí)現(xiàn)了有導(dǎo)航就能開(kāi)。

今年 5 月,理想汽車招募了 1000 位用戶,正式開(kāi)啟了無(wú)圖 NOA,也就是 AD Max 3.0 的公測(cè)。當(dāng)時(shí)的用戶反饋,遠(yuǎn)遠(yuǎn)超出了理想汽車的預(yù)期,短短兩個(gè)月后,理想汽車就為 24 萬(wàn)多位理想 AD Max 用戶推送了這次升級(jí)。

只不過(guò),這個(gè)時(shí)候的端到端,還是一個(gè)分段式的端到端,第三代智駕方案,才是真正意義上的一體式端到端——從輸入到輸出,全部由一個(gè)模型實(shí)現(xiàn),中間沒(méi)有任何規(guī)則的參與。

在以往,無(wú)論是有圖方案還是無(wú)圖方案,都依賴工程師根據(jù)各種各樣的道路場(chǎng)景去編寫(xiě)規(guī)則,力圖窮舉所有道路狀況和與之對(duì)應(yīng)的方案,讓智駕的范圍盡可能地廣。

通常來(lái)說(shuō),廠商會(huì)把場(chǎng)景大致分為三種:高速場(chǎng)景、城區(qū)場(chǎng)景和泊車場(chǎng)景。這幾大場(chǎng)景又可以繼續(xù)細(xì)分,規(guī)控工程師們則需要針對(duì)這些場(chǎng)景來(lái)編寫(xiě)代碼。

但面對(duì)錯(cuò)綜復(fù)雜的現(xiàn)實(shí)世界,這樣的做法顯然不夠現(xiàn)實(shí)。而一體式端到端,則可以學(xué)習(xí)人類開(kāi)車的過(guò)程,接收傳感器信息后,直接輸出行駛軌跡。

有沒(méi)有發(fā)現(xiàn),這個(gè)時(shí)候,提升智駕能力最重要的因素,從工程師變成了數(shù)據(jù)。而理想,最不缺的就是數(shù)據(jù)。

10 月 14 日,理想汽車迎來(lái)了第 100 萬(wàn)輛整車在江蘇省常州基地下線,中國(guó)首個(gè)百萬(wàn)輛新勢(shì)力車企就此誕生。根據(jù)理想汽車公布的數(shù)據(jù),在 30 萬(wàn)元以上的理想車型中,AD Max 用戶的比例,高達(dá) 70%——

每過(guò)一個(gè)月,這些車都能給理想提供十幾億公里的訓(xùn)練數(shù)據(jù)。

另外,理想很早就意識(shí)到數(shù)據(jù)的重要意義,打造了關(guān)于數(shù)據(jù)的工具鏈等基礎(chǔ)能力,比如理想的后臺(tái)數(shù)據(jù)庫(kù)實(shí)現(xiàn)了一段話查找當(dāng)時(shí),寫(xiě)一句「雨天紅燈停止線附近打傘路過(guò)的行人」,就能找到相應(yīng)的數(shù)據(jù)。

正是憑借龐大的訓(xùn)練數(shù)據(jù)和完善的控制鏈,理想智駕實(shí)現(xiàn)了在行業(yè)中的「后來(lái)居上」,用端到端和 VLM 組成了自己的「快」與「慢」。

在理想看來(lái),這套雙系統(tǒng)智駕方案,類似于諾貝爾獎(jiǎng)獲得者丹尼爾·卡尼曼在《思考,快與慢》中的快慢系統(tǒng)理論:

人的快系統(tǒng)依靠直覺(jué)和本能,在 95% 的場(chǎng)景下保持高效率;人的慢系統(tǒng)依靠有意識(shí)的分析和思考,介紹 5% 場(chǎng)景的高上限。

其中,端到端是那個(gè)「快系統(tǒng)」,而 VLM 自然就是「慢系統(tǒng)」了。

郎咸朋認(rèn)為,一個(gè)自動(dòng)駕駛系統(tǒng)到底是 L3 級(jí)別還是 L4 級(jí)別,并不取決于端到端,VLM 模型才是真正能去應(yīng)對(duì)未知場(chǎng)景,拔高能力上限的關(guān)鍵所在。

「理想同學(xué),我要去這里」

除了智能駕駛方面的升級(jí),OTA 6.4 在用戶交互方面也引來(lái)了革新。

這里同樣分為「快」和「慢」兩個(gè)部分。

作為「快系統(tǒng)」的端到端模型所對(duì)應(yīng)的通常為文字彈窗,為駕駛員實(shí)時(shí)提供導(dǎo)航、交規(guī)、效率、博弈等執(zhí)行邏輯和動(dòng)作。

對(duì)于「慢系統(tǒng)」VLM 視覺(jué)語(yǔ)言模型,理想則為它準(zhǔn)備了全新的圖文視窗。在特殊場(chǎng)景下,將前方感知到的畫(huà)面投射到頁(yè)面內(nèi),配合文案講解模型的思考過(guò)程和結(jié)果。

在文字彈窗和圖文視窗的配合下,無(wú)論系統(tǒng)執(zhí)行何種車控動(dòng)作,駕駛員都能提前知悉。對(duì)于那些初次體驗(yàn)智駕的消費(fèi)者來(lái)說(shuō),這種直觀的信息展示也有助于迅速建立他們對(duì)智能駕駛系統(tǒng)的信任感。

不得不承認(rèn),理想汽車對(duì)用戶需求的理解確實(shí)非常精準(zhǔn)。

在我們對(duì)于未來(lái)的暢想中,智駕和智艙總是綁定在一起的,在 OTA 6.4 版本中,理想也為它的智能空間帶來(lái)了不少升級(jí)。

首先是新增的任務(wù)大師 2.0 全面接入了理想同學(xué)和 Mind GPT 的能力,在大模型的加持下,任務(wù)大師的表現(xiàn)更為智能。

Mind GPT 加持下的理想同學(xué),不僅能夠在周末家庭短途旅行和解答日常小疑問(wèn)這兩個(gè)場(chǎng)景里發(fā)揮作用,結(jié)合新升級(jí)的高德 AutoSDK 750 版本導(dǎo)航地圖,理想同學(xué)可以通過(guò)「觸控+語(yǔ)音」的方式,讓駕駛員迅速進(jìn)行目的地搜索。

比如說(shuō),指著地圖上的某個(gè)位置,讓它幫你搜索充電站任一品牌的充電樁,甚至還可以指定功率。

總之,全新的理想同學(xué)完全可以讓你不必拿起手機(jī),你可以用最自然直觀的方式,輕松設(shè)置導(dǎo)航路徑。

端到端負(fù)責(zé)駕駛,VLM 替你思考,而你只需簡(jiǎn)單地指引方向。

本文來(lái)源:愛(ài)范兒

原創(chuàng)IP推薦

換一換

網(wǎng)友評(píng)論

聚超值•精選

最新內(nèi)容

別人剛上「端到端」,理想智駕卻又迭代了

理想汽車推出全新一代智能駕駛解決方案「端到端+VLM」,進(jìn)入AI大模型時(shí)代。該系統(tǒng)通過(guò)大量訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)像人一樣思考和駕駛的能力,在復(fù)雜場(chǎng)景下表現(xiàn)優(yōu)秀。新版本還提供了更直觀的用戶交互界面,并加強(qiáng)了對(duì)環(huán)島、超車等場(chǎng)景的處理能力。此次升級(jí)基于400萬(wàn)視頻片段迭代而來(lái),展示了理想汽車在自動(dòng)駕駛技術(shù)上取得的突破性進(jìn)展。

智能駕駛 | 端到端模型
專注Robotaxi,才是真正的Robotaxi第一股

文遠(yuǎn)知行成功登陸納斯達(dá)克,成為中國(guó)公司最大的赴美IPO之一。Robotaxi正成為L(zhǎng)4級(jí)自動(dòng)駕駛公司的主戰(zhàn)場(chǎng),小馬智行遞交招股書(shū)即將上市。Robotaxi具備技術(shù)進(jìn)化和商業(yè)化優(yōu)勢(shì),車隊(duì)規(guī)模、累計(jì)里程和訂單量是衡量公司投入與實(shí)力的指標(biāo)。

Robotaxi | 自動(dòng)駕駛技術(shù)
端到端還沒(méi)捂熱乎,小鵬就打算“上天”了

小鵬AI科技日將于11月6日舉辦,小鵬汽車發(fā)布了硬核的AI智駕技術(shù)。李力耘博士表示中國(guó)智能駕駛領(lǐng)域存在宣傳亂象,倡議建立公正客觀的評(píng)測(cè)標(biāo)準(zhǔn)。小鵬汽車選擇云端大模型路線,與全球頭部AI企業(yè)OpenAI一致。P7+成為首款搭載新一代AI鷹眼視覺(jué)方案的車型,具備強(qiáng)化學(xué)習(xí)訓(xùn)練和閉環(huán)功能。

小鵬汽車 | 智能駕駛
保時(shí)捷售價(jià)跌破40萬(wàn)了

保時(shí)捷Macan的售價(jià)跌破40萬(wàn)元,深圳經(jīng)銷商給出了最低35.80萬(wàn)元的裸車報(bào)價(jià),相當(dāng)于六折優(yōu)惠。然而,持續(xù)降價(jià)未能挽救保時(shí)捷的銷量,全球銷量同比下降7%,中國(guó)市場(chǎng)更是暴跌29%。此前連續(xù)多年是保時(shí)捷的全球最大市場(chǎng),如今已降至第三位。保時(shí)捷正在緊急換帥,并尋求新舉措來(lái)應(yīng)對(duì)市場(chǎng)變化。

保時(shí)捷 | 降價(jià)
中國(guó)智能汽車,聯(lián)手托起港股今年最大科技IPO

地平線科技成功登陸港股,成為今年最大的科技IPO。該公司是中國(guó)首家提供高級(jí)輔助駕駛和自動(dòng)駕駛解決方案的公司,已有27家OEM采用其解決方案。地平線以軟硬一體的智能芯片著稱,并且擁有豐富的量產(chǎn)經(jīng)驗(yàn)。此次上市標(biāo)志著中國(guó)汽車智能化轉(zhuǎn)型邁出了重要一步,也展示了地平線在行業(yè)中扮演著重要角色。

地平線 | 智能駕駛
二維碼 回到頂部