贾浩楠 发自 凹非寺量子位 | 公众号 QbitAI
极越汽车,搞了一个车圈科技圈大新闻:纯视觉NOA国内首发上路!
一段陆家嘴点到点领航辅助驾驶的实拍视频刚刚被公开 :
视频中极越01一镜到底、全程不接管、带领航辅助,而且ODD包含高速、城市以及泊车场景,全程解放用户不用自己开。
这样的Demo在自动驾驶行业其实不稀奇,Robotaxi早就实现。但令人吃惊的是,极越01的这种私家车智驾系统,在国内首个布局、跑通纯视觉方案,不再把激光雷达作为唯一的智能驾解决方案——通常行业认为这是现阶段高阶智驾的必须条件。
中国首个,且在全球范围内和北美地区的特斯拉FSD处于同一梯队。
这也是李彦宏刚刚在百度世界大会上所说“大模型重构自动驾驶”的成果和体现之一。
同样是今年智能驾驶所有玩家内卷的一个方向:视觉为主落地NOA,实现轻传感器高功能落地。
只不过极越汽车和背后关系紧密的百度Apollo,也许在其他玩家还在验证研发的阶段,就要率先落地了。
最终的智驾量产版本留有悬念,10月27日举办的极越01上市发布会上,这款主打开箱即用的高阶智驾产品即将交卷。
不过用户疑问也随之而来,再次引发了行业对于智驾技术路线的讨论:摆脱激光雷达,靠谱吗?极越01演示的这套智驾方案有哪些技术亮点?
纯视觉高阶智驾,体验如何?
点到点领航辅助驾驶,是指在目前的人机共驾阶段,绝大部分的驾驶由系统辅助完成,司机位的职责对车辆的行驶状态保持时刻关注。
极越01的测试全程,包含了城市高频使用场景,比如上海浦东区CBD,这属于城区内的NOA功能;还包括上下高速匝道、隧道内的连续领航辅助,以及复杂路口的人车混行等等。
其中的基础能力,包括自动避让、基础的跟车、车道保持、定速巡航等等。
更高阶的能力,包括综合考虑安全因素和通勤效率,自行变道(不用提前拨杆)、识别红绿灯、根据导航自主规划路线…
我们先看其中最值得关注的亮点,实测一镜到底视频长度约9分钟,放在最后。
首先是隧道内的长距离智能驾驶,在隧道内因为GPS信号弱或离线,需要系统较为精准的定位能力,同时还要面对隧道内光照条件差、周围障碍物密集的挑战:
除了正常行驶之外,极越01还能自主识别进入隧道内的分流岔路:
城市道路内,极越01除了能按照导航信息,自主规划转弯,还能在汇入、驶出主路的过程中,主动绕行路边故障车辆:
以及主动避让占道的行人、两轮车:
高速场景下,自主进出匝道、汇入汇出车流,并且主动避让加塞车辆:
当然,极越01在路上为了保证安全,对于行人、加塞的处理方式是主动避让,但在安全的情况下也会通行效率优先,主动选择更快的车道:
如果这样的表现是一辆Robotaxi,那没什么值得惊奇的。毕竟Robotaxi上传感器类型、数量丰富,而且也拥有相对固定的线路。
但这是一辆需要考虑量产、交付给用户的私家车,而且是随机在上海核心城区挑战。
是国内第一个,很难有直接对比的参考,毕竟其他的“遥遥领先”都是在重传感器的加持下实现的类似功能。
在极越01之前,全球范围内,只有特斯拉的FSD展现过类似的能力。
极越CEO夏一平在这件事上是很不“谦虚”的:
行业标杆,而且一定比特斯拉FSD强。
百度Apollo自动驾驶能力赋能了这套系统,百度智能驾驶事业群(IDG)技术委员会主席王亮进一步解释了一下:
考虑到特斯拉FSD的数据手机几乎全部基于北美路况,所以它真正落地中国的时候,还要面临复杂的的泛化性挑战。
摆脱激光雷达,技术上靠谱吗?
目前,具备城市领航辅助能力的智能车,普遍常见1-2个激光雷达的配置,也有的是3个,都宣称自己是最可靠最领先的。
但摆脱了激光雷达的智能驾驶系统,对于不了解细节的用户,不免产生疑问:多个硬件多份保障,没有激光雷达的智驾,能靠谱吗?
回答这个问题,首先要弄明白激光雷达在车上有啥用。
量产智能驾驶系统,你可以把它看成一个AI司机,它开车的方式和人类相同,也是用眼睛去感知一切信息。这是计算机视觉学科自然而然衍生出的一个应用方向。
这个AI司机的“眼睛”,就是车端的摄像头。而让AI司机分辨出看到的目标、物体的“大脑”就是背后的感知识别算法。
算法的本质是AI,而不是“if else”的判断指令,因为你不可能穷举世界上每一种交通参与者或场景状况。既然是AI,它就需要大量的数据学习,作为感知识别的基础。
但是这里有一个问题,人类看到的世界,是3维立体的,你可以凭直觉判断一个目标的形状、大小,距离远近。但摄像头捕捉到的图像信息,却是2维平面,同时AI又不具备和人类一样的“直觉”。
所以从2维数据复现构建出3维实时场景,是纯视觉智能驾驶系统的最大挑战。当然还有另一个难题是路上的异形物、异型车层出不穷,在有限数据集上学习训练的AI,难以完全识别覆盖。
在算法还不发达、车端芯片算力支持还不够的早期,给“眼神”不好的纯视觉系统增加一种感官,就成了最好的办法——激光雷达登场。
激光雷达发射红外光,碰到障碍物一定会产生相应的回波信号,这其中自然包含了目标的形状、大小,而通过回波时间,还能计算出距离信息。
相当于激光雷达通过“触觉”,构建场景的3维数据,给系统作为图像数据外的参考补充:视觉错检漏检的,激光雷达告诉你那还有一个XX目标。
但激光雷达成本高昂,目前在高档豪华车以外,难以随车标配。并且红外光回波信号的噪音抑制、信号处理等等,需要占用大量系统资源。而且激光雷达也不是万无一失,对于回波信号的识别,同样由算法完成,自然也有针对它的对抗攻击手段。
不依赖激光雷达的纯视觉方案要解决的关键问题,就是找出能够替代3维数据实时还原构建的视觉方法。
极越所展示的方式是OCC,Occupancy Networks,占用网络。
这项技术去年在特斯拉AI Day上被首次公开应用,后来特斯拉又在CVPR 2023的workshop上做了进一步阐述。
系统的主要感知识别数据仍然是视觉图像,摄像头采集的数据通过基于Transformer的BEV网络,应用自注意力机制进行特征提取,获得当前场景各个目标的语义分割信息,并加入时序特征。
OCC的作用,是在传统3D目标识别能力之上,通过体素(Voxel)化的方式理解和处理空间信息。
可以简单理解为将场景空间分割成单位化的“方块”,感知系统可以对3D空间的可通行区域进行高保真度还原。不需要考虑物体是什么,只考虑当下这个“方块”是否被占用:
OCC从根本上避免传统视觉对非训练集内物体的漏检问题,使模型的泛化能力大幅提升,能更好适应不同场景和环境。
而且对比激光雷达产生的稀疏且不连续的点云,摄像头采集的信息内容更丰富,更好地将3D几何信息与语义信息融合,更准确还原3D场景。
OCC的作用,同样提供了空间尺度下的物体大小、形状、距离等等信息,而且不需要额外传感器,依然使用摄像头采集的图像信息。
这也是极越01基于此前“纯视觉为主+激光雷达”的技术路线,又开发了“无激光雷达”智驾方案的关键,看似没了一项重要冗余,却依然能够实现点到点智能驾驶可靠性的关键技术。
重新审视激光雷达,高阶智驾新路线?
极越CEO夏一平透露,从2021年末就和王亮博士探讨纯视觉智能驾驶技术方案的可行性。
从用户端来看,这样的方案目前似乎有些激进,因为这两年激光雷达有成为高阶智驾标配之势。
但技术端、供应链一侧的震动,早已经酝酿、产生并传导:高阶智驾普及,传感器越来越轻,成本越来越经济。
之前耕耘自动驾驶、AI技术多年的玩家,比如大疆、商汤、旷视等等,今年纷纷公布智能驾驶量产产品路线,瞄准的是从2024以及后3年的新车型。
无一例外将高阶智驾的普及门槛越降越低,有鲜明且统一的标志:入门级方案成本不过千元级,功能至少是高速NOA起步。
激光雷达在这些方案中,逐渐成为选配或非必须,“领土”退守售价更贵、规模更小的车型上。
而且其退守有加剧之势:行业头部玩家公布的最新方案中,纯视觉系统实现的功能已经覆盖到城市通勤NOA。
王亮博士解释了核心原因:
“实际上,任何自动驾驶、智能汽车行业从业者都清楚,激光雷达不是自动驾驶的终局”。
这并不涉及什么“路线之争”,只是技术发展不同阶段的呈现。
他透露,2019年之前的尝试证明,纯视觉的方法要达到高可靠且体验良好的自动驾驶功能,“太难了”。所以激光雷达成了系统必不可少的传感器,相当于给当时“眼神不好”的AI司机,配了一根可以“触摸”环境的拐杖。
但激光雷达也有不尽完美的地方。其一是成本高昂(目前仍在数千元级别),是量产智驾普及、L4落地规模上量的主要障碍;其二是激光雷达让系统数据类型繁杂,数据量剧增,增添算法、算力资源负担。
所以“摆脱掉激光雷达依赖”实际上成了所有量产智能驾驶玩家的主动选择,也成了车企作为甲方的客观需求。
这同样也是老百姓的需求。因为1个激光雷达=至少数千元BOM成本,对于大众消费的20万元级或更加经济的车型,这样的智驾系统只能是尝鲜选配,没法普及。这也是目前行业的普遍状况。
智能化作为核心竞争力和产品价值,获得用户认可重视,极越和百度Apollo联合研发纯视觉方案的逻辑是:
用户不会认为多了几个硬件就是高级的,反而车端轻传感器减成本方案,背后的算力、数据、算法研发投入更大,这才是更高级更昂贵的智驾方案。
但这些软件端的研发成本不同于硬件,不是由用户直接买单,而是摊销进了规模化量产。
预售价25.99万的极越01,想做中国智能车的一个大胆尝试:点到点高阶智驾普及到大众消费车型,而且智能硬件标配,不选装不加价。
并且前端方案配置清晰、后端技术体系透明。
于是这一阶段比拼性价比的智能驾驶量产竞争几乎已宣告结束,下一阶段卷的方向更加清晰:更高的通行效率、更丝滑的乘坐体验,和更可靠的功能安全——细节处见功夫。
不再依赖激光雷达的高阶智驾,不是主观上的激进,而是技术和行业发展到一定阶段的必然和客观体现。
只不过令人吃惊的是,极越展示的技术实力,让这个标志性里程碑的到来大大加速了。