近日,马斯克在特斯拉的AI日上大秀肌肉,人形机器人、超级计算机 Dojo的亮相,纯视觉路线工作原理的展示,无不透露着其技术信心。在一众厂商都选择激光雷达方案作为视觉感知路线时,特斯拉依然坚持纯视觉路线并且旗帜拉得更高往深处走了。

我们知道自动驾驶的底层原理是感知、决策、执行三个步骤的结合,感知层运用视觉传感器获得周围路况信息,通过车身的设备端及云端处理数据并获得执行命令,使得汽车获得自动驾驶的能力。三个基本步骤中感知作为首要步骤,对后续的决策和执行起着先决作用。在感知层面上市场中目前有两种技术路线:视觉感知与激光雷达感知。

激光雷达派认为,摄像头做主导的视觉感知精度不够,如果自动驾驶要发展到L3级别以上,就应当采用激光雷达。视觉感知派认为,摄像头感知的环境信息数据丰富,并且可以对物体进行分类后续方便标注,最关键的是成本低廉,这些是激光雷达做不到的。

无论是从技术还是成本角度分析,两种方案核心差异在于是否需要激光雷达的辅助,才有可能实现高级别自动驾驶。到底孰优孰劣,两派争论不休。那么,两种技术路线究竟谁能笑到最后?

激光雷达vs视觉感知性能比拼

激光雷达感知技术是以激光雷达为主导,毫米波雷达、超声波传感器及摄像头作为辅助。激光雷达感知环境的工作原理,是通过激光雷达发射激光束,测量激光在发射及收回过程其中的时间差、相位差,来确定车与物体之间的相对距离,实现环境实时感知及避障功能。

激光雷达具有较长的探测距离与较高的精准度,抗干扰能力强,可以主动检测周围多物体环境,获取周围环境点云构建3D环境模型。即使夜间光线不好,也不会影响探测效果。虽然激光雷达不怕暗光但是对于天气敏感,雨雪、沙尘、大雾天气等影响激光雷达识别效果。激光雷达融合高精地图方案可有效弥补视觉方案环境依赖度高、算力需求大的缺陷,其性能优势使得大多车厂将激光雷达列为面向L3级及以上级别自动驾驶不可或缺的感知器件。

视觉感知是以摄像头为主导的方案,摄像头成本相较激光雷达优势极大。摄像头的价格在几十美元左右,而激光雷达在几百美元,是其数倍。再者摄像头技术逐渐成熟,高分辨率、高帧率成像技术使得感知的环境信息更为丰富,但摄像头在黑暗环境中感知受限,精度及安全性有所下降。

例如特斯拉最为诟病的幽灵刹车故障,就是在一些隧道和大桥阴影处,因为摄像头的结构原因,算法将突然出现的阴影当做障碍物导致车辆会突然自动减速,造成安全隐患。视觉方案中比较硬件性能,摄像头功能被秒成渣渣。得益于软件算法的加成,视觉方案才能依靠强大的算法保证图像处理、决策执行的功能正常进行。

与激光雷达相比,视觉感知的弱点较为明显:摄像头依赖光线条件,感知方式精度较低,对算法、算力的依赖程度和要求极高,而数据的获取及算法迭代壁垒高。性能方面激光雷达明显胜出,特斯拉花费巨大的成本在算力和算法上,投入不小,一直头铁坚持视觉感知路线,到底是有哪些角度的考量呢?

特斯拉专注纯视觉路线逻辑

在马斯克看来,“纯视觉感知才是通往真实世界 AI 的道路”,而这也是他解决问题奉行的底层思路——第一性原理,即回归事物最基本的条件,将其拆分成各要素进行结构分析,从而找到实现目标的最优路径。

在驾驶车辆的过程中,我们是通过眼睛收集路况信息辅以大脑处理的方式进行,那自动驾驶按理说也能通过视觉感知辅以算法处理的方式进行安全驾驶。特斯拉想要做的就是模仿人类视觉获取信息的能力来实现自动驾驶。既然视觉摄像头的感知方式精度较低,那么就依靠特斯拉独有的数据优势和构建算力、算法的能力来抹平这个缺陷。

数据方面,当其他自动驾驶厂商还在路测阶段收集数据,特斯拉得益于在全球售出数百万辆有摄像头的汽车,已经积累了海量真实路况的数据。用于深度学习模型训练的数据让特斯拉的算法早已建立起壁垒,而这些数据样本的积累速度与算法的效率其他厂商无法复制,只能干瞪眼瞎着急。

算力方面,特斯拉新建立的超级计算机 Dojo,拥有强大的算力,这个超级计算机就是为特斯拉的自动驾驶系统设立,用来集中力量训练 Autopilot 在内的整个自动驾驶系统。

而在摄像头的技术层面,特斯拉也进行了技术的革新,使用“伪激光雷达”技术代替,对摄像头中的像素进行深度估计,类似激光雷达的点云功能一般形成3D目标检测,提高了深度估计的准确性,激光雷达和相机之间的差距开始缩小。

人们驾驶车辆的时候依赖视觉,我们的神经网络可以处理视觉信息中的距离、速度等信号,而特斯拉的神经网络似乎也可以逐渐做到。特斯拉的视觉感知路线,逐渐在缩小与激光雷达方案的差距,但是其背后所付出的代价,让后来者们无法跟随复制,这也为特斯拉建立起强大的壁垒。纯视觉方案以海量样本数据训练学习和先进的图像处理算法算力支撑,注定是一个少数攀登者选择的艰难路线。

特斯拉首席AI科学家Karpathy在今年CVPR 2021自动驾驶研讨会上表示,基于纯视觉的自动驾驶方案在技术实现上更加困难,因为它需要神经网络仅基于视频输入就可以运行得非常好。不过好处就是“一旦真正让它工作起来,它就是一个通用的视觉系统,可以部署在地球上的任何地方”。

视觉感知系统未来不仅仅是部署在汽车上,也可以部署在任何需要视觉系统功能的其他产品上,比如机器人、无人机、AR/VR等,成为通用的能力,而这也是特斯拉的未来考量和野心。虽然特斯拉设想的未来美好,但是现实中,现下的视觉感知方案与激光雷达方案相比,还是有差距。我们在新闻中仍然会看到,特斯拉汽车因识别感知出现问题而发生车祸的安全事故,目前激光雷达派在安全方面还是笑着走在前面的。

激光雷达能笑到最后吗?

两个流派谁能笑到最后,也是考量规模量产与视觉路线技术的迭代谁的速度更快,我们可以通过数据发现,新注册雷达企业越来越多。数据显示,目前我国雷达相关企业共有1.4万家,2020年新注册企业2640家,同比增长29.3%。而上市公司禾赛科技、巨头华为等发布的低成本激光雷达产品,已经准备量产。

供应端的增长态势发展来源于需求端的庞大需求,绝大部分从事L3、L4级别自动驾驶的公司,包括初创公司和大公司,都采用了激光雷达,并且大多数都是购买激光雷达而不是自研的方式。

激光雷达方案,因为硬件高精度性能带来的安全优势,暂时的成本高也能被市场接受。大部分玩家接受激光雷达方案,使得需求端大,其产能也跟着扩大,规模量产在路上,而未来的成本也会因为规模优势进一步降低,建立良性循环。

经过超过10年的发展,激光雷达被证明了是实现高级别自动驾驶的必备传感器,特斯拉在这一态势下也在着急研发,同时秀肌肉招人。此前,特斯拉与激光雷达技术公司Luminar签订了一份使用激光雷达进行测试和开发的合同的消息,引来大家伙的猜度。虽然后来特斯拉澄清自己会坚持纯视觉路线一条道走到底,但是其使用激光雷达行为居心难测。

纯视觉路线,摄像头便宜但安全性堪忧,与算法、算力能力挂钩,特斯拉依赖自有海量数据与超级计算机,这种优势无人能模仿。而这也就意味着纯视觉路线要么一骑绝尘,要么平分秋色,但市场其他企业无论结果如何都无法跟随视觉感知路线,没有两把刷子参与进去,玩的就是心跳了。

两种视觉感知路线长期来看,仍会因为成本与安全存在争议,现在激光雷达规模发展速度与特斯拉的纯视觉技术发展速度未见分晓,激光雷达能不能笑到最后不好说。但在现下,与未知的视觉感知技术发展相比,激光雷达方案已经在规模量产的路上,其美好态势的发展让这个派别有底气去笑着迎接未来。