智驾网 2023-02-17 09:55
毫末智行:自动驾驶认知大模型正式升级为DriveGPT
分享
毫末构建了自动驾驶决策的奖励模型(reward model),从而在各种规划场景情况下做出最优的决策。通过这一大模型,在掉头、环岛等公认的困难场景中,场景通过率提升30%以上。

2月17日消息,毫末智行宣布自动驾驶认知大模型正式升级为DriveGPT,并将在2023年4月的HAOMO AI DAY上公布其最新重要进展。据称,这是全球首个自动驾驶认知大模型。



随着ChatGPT火爆全网,它所采用的Transformer大模型以及“人类反馈强化学习(RLHF)”技术再次引发行业关注。在2023年1月的HAOMO AI DAY上,毫末智行CEO顾维灏介绍,毫末推出的人驾自监督认知大模型就已借鉴了ChatGPT的实现思路,采用RLHF(人类反馈强化学习)技术,通过引入真实人驾接管数据,对自动驾驶认知决策模型进行持续优化。


毫末的认知决策算法经历了三个阶段的进化。



第一阶段是引入个别场景的端到端模仿学习,直接拟合人驾行为。


第二阶段是通过认知大模型,引入海量正常人驾数据,通过Prompt的方式实现认知决策的可控、可解释。


第三阶段,也就是当前阶段,通过引入真实接管数据,并且在大模型中开始尝试使用RLHF算法,对人驾接管数据进行学习。为此,毫末构建了一个包含“旧策略、接管策略、人工label策略”的Pairwise排序模型。基于这一排序模型,毫末构建了自动驾驶决策的奖励模型(reward model),从而在各种规划场景情况下做出最优的决策。通过这一大模型,在掉头、环岛等公认的困难场景中,场景通过率提升30%以上。

目前,毫末DriveGPT已完成模型搭建和第一阶段数据的跑通,参数规模可对标GPT-2的水平。接下来,DriveGPT将持续引入大规模真实接管数据,通过人驾数据反馈的强化学习,来不断提升测评效果,同时也将DriveGPT作为云端测评模型,用来评估车端小模型的驾驶效果。

x

收藏 1
打赏
相关标签:
电话:010-65030507
邮箱:editor@autor.com.cn
地址:北京市朝阳区朝外大街乙6号朝外SOHO D座5097室
北京智驾时代传媒科技有限公司          Copyright © 2014 - 2022
Autor.com.cn All Rights Reserved. 版权所有 AutoR智驾 智能汽车网
京ICP备14027737号-1      京公网安备 11010502038466号
电信与信息服务业务经营许可证:京B-20211307
关注官方微信