随着ChatGPT为代表的AICG应用取得前所未有的成功,AI大模型真正引发全球产业界的关注。作为人工智能领域主要赛道的自动驾驶,在AI大模型上有哪些应用和突破,也成为行业关注的热点。3月24日,毫末智行联合清华大学智能产业研究院(AIR)举办了首场自动驾驶精品公开课媒体训练营,深入解读前沿AI技术与大模型在自动驾驶产品上的发展趋势与应用逻辑。
【资料图】
作为自动驾驶系列公开课的第一期,本期课程以自动驾驶产品和AI技术基础原理介绍为主。现场,来自清华AIR的袁基睿博士和来自毫末智行的艾锐博士分别带来各自的分享,为报名参加课程的近百名业内媒体人提供了一份自动驾驶的前沿技术探路指南。
在题为《自动驾驶OVERVIEW》的分享中,袁基睿博士结合清华AIR的研究背景,从自动驾驶发展背景、单车智能自动驾驶、车路协同自动驾驶和高等级智能道路建设等四个方面介绍了自动驾驶的发展。
据袁基睿博士介绍,作为面向第四次工业革命的国际化、智能化和产业化的研究机构,清华AIR主要依托清华大学的平台和创始团队的企业基因,开展关键核心技术突破,赋能产业,推动社会进步。智慧交通是清华AIR非常重要的科研方向, AIR在交通方向提出了AIR Pilot计划,引领数字世界到物理世界的AI科技创新,构建开源开放的智能交通产学研平台,推动自动驾驶技术规模商业化落地。一方面面向前沿技术依托DAIR数据平台及DISCOVER仿真平台,形成AI核心科研能力:包括多模态感知、轻地图AI导航、端到端自动驾驶等,一方面构建产业影响力,参与行业标准制定、白皮书、并创新孵化企业等。此外,面向自动驾驶、车路协同、智能交通等方向,与合作伙伴一起构建产学研应用与平台。
在袁基睿博士看来,自动驾驶乃至智能网联汽车产业发展,需要突破四个方面,包括技术突破、基础设施建设、政策法规、以及标准建设。
首先,在技术突破层面,无线通信技术、智能互联技术、信息安全、隐私保护都是需要突破的点,但最重要的是自动驾驶本身技术的突破。自动驾驶是一个十分复杂的系统问题,涉及到感知、认知、规划、决策与执行等诸多环节,需要在极短时间内做出可执行的正确决策。尽管自动驾驶已经涉及了大量前沿的AI算法,目前仍有一个亟待解决的问题:即如何提升感知的鲁棒性和可泛化性。
其次,基础设施建设方面,道路智能化与驾驶智能化发展不够协同,需要建设高等级智能化道路,服务于车路协同自动驾驶、智能交通管理和智慧城市建设。目前国内部分城市和高速公路已经规划建设了一批自动驾驶封闭测试场、开放测试道路,但这些都还处在小范围测试验证和应用示范阶段,目前还难以满足高等级自动驾驶对数据精度、数据质量的要求,因此需要建设高等级智能化道路,以推进自动驾驶规模商业化落地应用。
第三是在政策法规层面,虽然国家和地方已积极出台了关于自动驾驶的道路测试管理规定,一定程度上推动了全国范围内自动驾驶公开道路测试进程,加快了自动驾驶应用的步伐,但总体上,影响自动驾驶汽车研发、生产、销售和商业化应用的相关法律法规仍需要加快研究和制定。
最后是标准层面,工业和信息化部、国家标准化管理委员会、交通运输部、公安部归口管理的相关标准化组织已经牵头制定了不少自动驾驶、智能网联、车路协同相关技术标准,但是道路基础设施、云控基础平台、功能安全和预期功能安全等核心技术标准仍未统一。
综合来讲,现阶段自动驾驶落地仍存在大量的不确定性,但在这些不确定性中,有几点是确定的:首先,技术发展离不开商业的落地,垂直自动驾驶将会率先落地;其次,单车智能方面需要关注感知系统的可泛化性,以及进一步希望扩展端到端自动驾驶;并且,袁基睿博士认为车路协同让自动驾驶更安全,而车路协同中国会具备优势;最后则是开放生态有助于产业进步,而隐私保护是开放生态的基础。
在公开课下半场,艾锐博士结合毫末智行在自动驾驶数据智能体系MANA的实践,向大家介绍了自动驾驶AI技术基础原理,以及当前大模型在自动驾驶的应用趋势。
艾锐博士表示,作为一家致力于自动驾驶的人工智能技术公司,毫末在成立之初就定下了“风车战略”,即以数据智能为核心,驱动乘用车辅助驾驶、末端物流配送车和智能硬件三个主要业务发展。
从成立至今的三年多时间里,毫末建立了中国首个自动驾驶数据智能体系、中国自动驾驶公司首个智算中心和全球首个自动驾驶认知大模型,稳居中国量产自动驾驶第一名,并推出了中国第一个大规模量产、重感知的城市导航辅助驾驶,成为首个出海量产落地的自动驾驶公司……而这一系列亮眼成绩的背后,则是毫末对人工智能三要素——算法、算力、数据的钻研和利用。
“用更低的成本、更快的迭代速度开发出更好的产品是毫末的思想钢印”艾锐博士表示,正是基于这样的思想钢印,毫末发展出了数据智能体系MANA。MANA由TARS、LUCAS、VENUS和BASE四大板块组成,能够将感知、认知、标注、仿真、计算等多个数据分析环节高度融合于一体,具备对超大数据规模处理的能力。基于MANA赋予的超级能力,毫末智行的自动驾驶产品正在变得更强大——据艾锐博士介绍,截至2023年3月,毫末辅助驾驶用户行驶里程突破3800万公里,毫末城市NOH作为国内首个重感知技术方案的城市导航辅助驾驶产品,软件已经封版并达到交付状态,这也是中国第一个可大规模落地的城市导航辅助驾驶,未来搭载车型将超百万辆。
艾锐博士指出,随着业界的持续探索,针对各种各样的问题都找到了合适的网络结构决,并且网络结构逐步趋同收敛到Transformer这种形态,可以理解为“算法”层面趋同,目前的主要难题是“数据”和“算力”。
算法方面的一个焦点是多模态和纯视觉之争,由于不同模态传感器本身的物理特性,多模态获取的信息量一定比单模态多,所以天花板一定更高。但是纯视觉能力近期也有很大的进展,而且具有非常大的成本优势。
针对这个问题,艾锐博士也向业内分享了毫末的做法。首先是在算法架构层面,毫末的感知模型结构做了很强的兼容性设计,具有纯视觉和多模态多种版本,并且乘用车行泊和末端物流自动配送车等不同业务线也可以复用。多种版本带来的好处就是大规模多模态数据可以让纯视觉能力提升更快,提升成本更低。“毫末的障碍物检测、静态道路检测、动静态障碍物对比、BEV车道线检测技术等多个已量产技术都得到了业内顶会的认可,多传感器融合效果业内领先。”
确定算法架构之后,下面要做的事情就是如何找到更多高价值数据、如何很快训练出新的模型以及怎么在车端的有限算力上快速部署。这些问题则由LUCAS大规模自主持续学习系统来完成,它可以基于线上TOP问题,制定数据回传策略,快速完成配置下发,进而收集更多的问题场景,实现数据获取的闭环。据艾锐博士介绍,毫末MANA的LUCAS车端诊断服务支持数十万辆量产车+百辆级研发车,140+触发条件,数据入库支持自动驾驶产品研发和训练使用的质量要求。
“毫末已经建立起一种最高性价比的作业方法体系。融合预标注、自动标注、三维重建、半自动人机交互等多种方法,针对每一个品类设计了与之匹配的最高效的流程和方法,实现95%的自动化率,周产能10W Clips。”艾锐博士表示,毫末通过MANA以及在中国境内的数据累积优势,找到了一条高效低成本的路径保持双线同步发展,提供不同性能和价格的产品。
“感知之外更重要的是认知”,针对认知问题,2023年2月,毫末将MANA人驾自监督认知大模型正式升级为DriveGPT,这也是全球首个自动驾驶生成式预训练大模型。目前,毫末DriveGPT已完成模型搭建和第一阶段数据的跑通,参数规模可对标GPT-2的水平。接下来,DriveGPT将持续引入大规模真实接管数据,通过人驾数据反馈的强化学习,来不断提升测评效果,同时也将DriveGPT作为云端测评模型,用来评估车端小模型的驾驶效果。艾锐博士也透露,DriveGPT最新重要进展将在4月举行的第八届HAOMO AI DAY上公布。
同时,为了支持各类大模型的数据和算力需求,2023年1月,毫末正式发布智算中心雪湖·绿洲(MANA OASIS)。作为中国自动驾驶行业最大智算中心,MANA OASIS由毫末与火山引擎联合打造,每秒浮点运算达67亿亿次,存储带宽每秒2T,通信带宽每秒800G。
艾锐博士表示,大模型助力下MANA最新的车端感知架构是一个更加端到端的架构,过去分散的多个下游任务都集成到了一起,除了车道线、车辆、红绿灯等任务,还包括通用障碍物识别、局部路网、行为预测这些任务,实现了一个跨代升级,能够更好地支持毫末跨入自动驾驶的3.0时代。
在现场问答环节,针对“如果ChatGPT是人工智能的"iPhone时刻",那么自动驾驶领域的"iPhone时刻"会是什么”这一问题,艾锐博士给出了自己的观点:“我们希望DriverGPT就是自动驾驶"iPhone时刻"。事实上,ChatGPT证明了一件事,现在的人工智能方法加算力体系,可以针对自然语言处理给出一个大家可以接受的结果,它终于做到了让人觉得可用的地步,并且在很多方面比普通人还厉害。自动驾驶领域,如果有一天,当AI的驾驶能力超过人类老司机的平均水平之后,我觉得那个时候就会很不一样了。”
通过自动驾驶精品公开课,毫末与清华AIR携手业内资深媒体人共赴AI知识的山海,领略技术魅力,共创行业价值。未来,毫末智行也将继续加速赋能自动驾驶技术,携手更多同路人,以“让机器智能移动,给生活更多美好”为愿景,推动自动驾驶行业的繁荣发展。