毫末智行侯军：人工智能最大的挑战是数据采集_商业

智驾网 2023-06-08 09:29

毫末智行侯军：人工智能最大的挑战是数据采集

无论是中国的科技巨头还是美国的科技巨头，在面临数据的问题上大家都遇到了天花板。

以“5G大时代，勇闯无人区”为主题的2023世界智能驾驶峰会在北京国家会议中心成功举办。本次峰会由智驾网策划，智驾传媒与中国邮电器材集团有限公司共同承办。

今年是峰会举办的第五届，从2018年首届峰会举办至今，智能驾驶正从L2级别辅助驾驶逐渐向高级智能驾驶进化，拥有智驾功能的新车渗透率逐年增加。同时，芯片、激光雷达、高精地图、高精度定位等相关产业链也正迎来爆发式增长。

本次峰会设《智能驾驶的中国方案》、《高阶智能驾驶的落地之战》、《无人驾驶的商用车落地场景》和《智驾产业链的全球化与本土化》四大版块，汇聚100多位产学研代表共同分享、探讨行业现状与未来发展。

在论坛现场，毫末智行COO侯军发表了相关演讲，以下内容为演讲全文。

微信图片_20230607141511_副本.jpg

侯军：感谢大会的邀请，两年前记忆犹新，因为疫情中大家都非常艰难，不容易，但是我们今天要探索的话题是如何把智能驾驶大规模落地。在大规模落地的过程中，我们简单总结为三个阶段，第一个阶段叫可行阶段，这个阶段需要具备感知能力、算法能力、车辆控制能力，在实验室也罢，小范围也罢，需要进行可行能力的实现。另外安全性、车规级、全天候、全地形是必须要面对的，做不到这四点是很难做到可靠性的保证的。最后是可商用，首先要符合场景的需求，比如说在高速公路、封闭园区、港口、码头场景还是什么场景，以及规模成本，不要说高科技就能卖高价格，高科技实际上是高性价比，甚至要更低的成本。第三个是政策法规的支持，基于当下的政策法规，比如说在开放道路实际上Robotaxi是很难大规模商用的，当然可以在小范围局部测试体验，基于上面三个点，今天想分享一下如何真正可以使智能驾驶的产品在“可行、可靠、可商用”三个阶段大规模的落地。

自动驾驶分为四个象限，八个区块。四个象限分别是载物、载人、高速、低速，内部的区块是辅助，外部的是完全，在八个区块里有很多公司做了自己的选择，这里面没有对错也没有好坏，只有大家战略的选择不一样。对于毫末智行我们是基于人工智能在自动驾驶领域，在智能驾驶领域大规模落地的选择，我们选择两个区块，第一个是高速载人的辅助驾驶，目前最火热的ADAS，智能驾驶渗透率在2022年达到了30%，目前还在激增。

第二个选择是载物低速完全自动驾驶，在低速自动和完全的领域，这个领域可以大规模商用，做一个总结，我们认为从低速到高速，从载物到载人，从商用到民用这样一条渐进式路线是自动驾驶和智能驾驶可以大规模商用的。

分享一张老图，过去十几年大家都在讲非连续时切入，现在又有了新的曲线，表面上看是技术问题，今天是通信展，从功能手机到智能手机，十几年前这个故事已经发生了，一批公司离开了，一批公司又出现了。在非连续时切入曲线来看，本质来看是利益问题，机制问题，认知问题。摘取了一句话，在切换过程中人类唯一能从历史中吸取的经验教训就是人类从来不会从历史中吸取经验教训。

微信图片_20230607141524_副本.jpg

我们看一下AI的开发模式是什么，大家讲智能驾驶、人工智能，我们看一下基础定义。这个基础定义，传统的开发模式和人工智能开发模式没有优劣、好坏，只有适用与不适用。比如说ICT和汽车产业，基于传统开发模式实现了大规模的商业落地和应用，这个开发模式的基本特点，第一个是识别问题，把大问题分解成很多子问题。第二个，设计程序解决每一个子问题。第三个，将子问题的解决方案合并成一个系统和一个解决方案，这是相对来说传统的开发模式。

但是在人工智能的时代开发模式发生了变化，第一个，识别问题但是很难把这些大问题全部拆解成明确的子问题，这时候怎么办呢？需要你准备充足的数据，确定目标和学习方法，训练AI模型，快速进行迭代，这两个开发模式就会在组织中产生巨大的冲突。

自动驾驶公司成功的关键，我们在过去几年的时间，包括成立毫末智行之前的一些经验，总结为以下六要素。人工智能三项基本要素是大模型、大数据、大算力，这是基本概念。如何把人工智能这三要素在汽车自动驾驶领域聚齐不容易，科技公司天生具备一定的技术能力和模型能力，当然融资能力也超强，买足够的算力似乎不是问题，但是数据、数据、数据，可能是科技公司面临最大的挑战。无论是中国的科技巨头还是美国的科技巨头，在面临数据的问题上大家都遇到了天花板。

从传统主机厂来说可能天生具备很多车辆，很多数据，当然一些具体的技术问题如何数据存储、标注等等还有很多问题，但是它似乎具备数据的一些基础能力。算力，可能大家也不差钱，买得起，但是如何把三要素聚集起来是非常难的事情。往下面看，我们需要一种合适的机制，比如说你是在大体制之内创立新的公司，还是外部科技公司与大体制结合，才能把这三要素聚集，同时还有人才的获取，从主机厂角度来说，基于过去几十年大工业时代的运营，有自己的人才结构，有自己的薪酬激励，基于今天的人工智能时代如何把新的人才和文化引入进来，需要机制的支撑，最底侧是认知，能不能把上面的差异和关键点统一结合起来，这需要强大的认知，否则大家就会说一套做一套，使整个组织面临更大的挑战。

给大家一个大的背景，看一张全景图，基于2022年的统计数据看这三个要素，第一个是全球人工智能的排名是美、中是绝对的领先地位，第二个全球超算中心的排名，2022年的统计数据，中美处于领先的地位，远远领先其他国家。第三个看看过去二十年全球前20大互联网公司，就在中美两国。基于上面三个宏观要素可以做一个初步的小结，大概率在智能驾驶这一轮竞争中，在中美两国可以产生一系列公司，在欧、日、韩我认为会面临非常大的挑战，中国公司走出去首先要家里先打赢，出去的成功概率会非常大。

微信图片_20230607141658_副本.jpg

我介绍一下毫末智行的情况，过去1—2年落地探索的情况。我们有个毫末模式，希望用领先的数据智能乘以稳定的量产能力，乘以安全的保障，在生态合作助力下砥砺前行。过去两年我们发布了三代产品，2021年基于高速公路点到点的辅助驾驶，2022年年中基于泊车的辅助驾驶产品，包括现在正在上车的基于城市开放道路的非高精地图城市辅助驾驶，我们会在三季度，在保定、北京、上海三个城市率先使用。

自动驾驶发展的过程大家回顾一下十年的历史，简单用三个词来总结。1.0是基于硬件驱动，2.0是软件驱动，3.0是数据驱动，我分享一下3.0时代基于数据驱动的一些理解和落地的实践。今年是自动驾驶的冲刺之年，大考之年，乘用车的搭载率超过了30%，今天前面几位嘉宾领导已经分享了这个信息，我们认为今年第二个重要的亮点是城市的导航辅助驾驶大规模上车，4月份的上海车展多家公司都已经立下了flag，今年下半年大家会看到非常热闹的中国智能驾驶在城市的落地。第二个是行泊一体的前装市场迎来量产高峰，大家可以看到2025年无论是保守者还是激进者的预测，2025年智能辅助驾驶搭载率会达到50%—70%。第三个是我们的战略选择，我们认为末端物流自动配送车商业闭环时间点到了，后面会有详细阐述。

这是我们今年到明年的路线图，我们的原则是安全为先、用户为先、规模为先，我们在初期会速度慢一些，使用3—6个城市落地，实现城市点到点的辅助驾驶，希望MPI尽量长一些，在保证安全的情况下让用户体验到更好的驾驶体验。

这是我们今天早上出门的时候专门截取的一张实时智能驾驶数据的看板，大家可以看到两个数据，第一个数据是目前使用毫末智行辅助驾驶产品总里程已经超过5千万公里，这是非常难得的，因为整个在人工智能的三要素里，大模型、大数据、大算力，现在来看大算力有钱就可以搞定，大模型有人就可以搞定，大数据真的是要在路上跑起来才能搞定，这为我们模型的迭代和算力的使用提供了巨大的基础。

第二个我们在末端无人物流车，在开放道路空间，这是特殊的开放道路，得到当地政府的授权和使用，比如说在北京顺义马坡区域预订了18万的订单。

低速无人物流车市场做一个简单的分析，低速到高速，载物到载人，商用到民用，前面就是低速载物或者载物商用率先实现自动驾驶，而且这个自动驾驶是可以大规模到来的。

第一个是全球末端物流规模市场将近2千亿美元，而且每年还在增长，这是第一个图。第二个看一下中国的市场，大家都是网上购物和外卖的使用者，中国每天物流外卖订单超过了3亿订单。根据国家邮政总局的预测，预测2025—2030年之间，每天外卖、快递即时订单激增到10亿单，这是现在物流配送的3倍以上，物流小哥今天可能不太够用了，基于疫情的情况短时间内可能有充足的人力，但是长期来看，整个出生人口的数量已经比较低了，这是显性数据，而且随着大家对幸福美好生活的追求，劳动力供给之间会产生巨大的冲突。

第三个给大家看一下无人配送落地，过去很多公司，包括中国的、美国的，中国有多家公司在进行探索和追求，经历了四个阶段，技术的早期研发、测试运营、规模化试运营，今年我们认为基本上到了商业化应用的元年，商业化应用意味着整车成本要降到十万元以内。

这是过去三年毫末智行在支持包括美团、阿里、物美、达达等企业在不同场景，不同场景使用情况下，不同价格的产品。给大家一个直观的数据，就用价格成本来看，2020年一台低速无人物流车的整车成本含软硬件、感知、域控制器，大概要在百万元左右。到了2021年基本上是五百万左右，2022年行业水平到了20—30万，毫末智行2022年4月份发布了全球首款12.88万，10万级的产品，2023年毫末做到什么程度了？小魔驼3.0可以做到8.9万，9万元以内。一台车正常使用3年左右，加上运营成本，可能3年是15万左右的成本，可以在一些场景，一些区域来弥补劳动力不足而需要的运力支持。

基于上面宏观的概述，4月11日我们发布了中国乃至全球第一个针对自动驾驶和交通领域的DriveGPT。

微信图片_20230607141703_副本.jpg

GPT经过过去3—6个月密集科技新闻的洗礼，大家已经有了基本概念，它就是生成式预训练的转换器，预训练和生成式是关键词。ChatGPT是基于对话的，基于对人类的语言、图像、语音一系列知识的预训练，到GPT 4.0、GPT 5.0已经把人类知识都学完了，可以生成ChatGPT，可以跟你进行很好的对话，你已经很难区别它到底是机器还是有智能的硅基生命，这是ChatGPT的能力。

DriveGPT是什么呢？DriveGPT是基于我们对现在交通场景，比如说BEV交通场景的预训练，需要训练多大量呢？后面会介绍。训练之后可以生成预测未来的车道轨迹，就像平行宇宙一样，比如说你过一个十字路口，十字路口很复杂，你可以直接左拐，可以等待左拐，延后左拐，会生成很多平行的判断。希望用DriveGPT的能力，基于大规模预训练，输出决策的推理链，使我们通过前方的无论是十字路口还是超越车道，还是混行车等等达到大规模的成功。

这里给大家一些基本的数据，在DriveGPT里现在已经对一些能力，对行业开放了。大数据、大模型、大算力里的大数据，大数据的最基础能力是标注。人工智能有一句玩笑话，叫有多少人工就有多少智能。仅仅在标注的产业，中国的从业人员大概是500万，这么多人在做标注。在自动驾驶里所有使用的图片，二维、三维、四维的图片都需要人工标注。基于DriveGPT的能力，我们现在已经把一张二维图片，车辆、车道线、红绿灯等等进行高效自动化标注，可以提效十倍，五块钱是市场的正常价格，直接降到五毛钱。自动驾驶公司需要多少张标准图片呢？几亿张到几十亿张起，光一个标注成本就这么高。

仅仅靠二维图片已经远远不够用了，现在是4D Clips，这里给大家一个推导数据，一个4D Clips按照10秒钟短视频来看，用纯人工标注需要数千元到一万元，自动驾驶公司至少是百万个4D Clips起。算一个极端的成本，100万乘1万元成本，需要100亿，任何公司都承担不了百亿元级别的4D Clips标注成本。目前有什么办法呢？利用DriveGPT的自动化标注能力，基本上可以降本98%，把一万块钱的一个4D Clips标注降低到数百元，这样既能采得回来，有五千万公里的数据采集，当然里面不全部是4D Clips，有一部分是不够的，再加上大规模的自动化标注存储。

下一步是智算能力或者超算能力，我们在今年年初与火山引擎一起建立了中国在自动驾驶领域第二个超算中心，浮点运算可以达到67亿亿次/秒，当然这是数千片GPU构成的，目前的超算已经不够了，我们正在筹建二期的超算中心。

同时毫末智行的高速发展也要感谢生态伙伴的强力支持，毫末智行是一个tob和toB的合作模式，我们希望用自己的能力，无论是解决方案还是软硬件、源代码，真正为我们的客户来创造价值，有一句核心的话就是大家担心灵魂，我们对这句话的回应是您的灵魂您保留，我的灵魂您带走，谢谢大家。

打赏