智驾网 2023-04-24 10:36
场景定义,智能驾驶进入BPU高效计算时代
分享
地平线联合创始人兼CTO黄畅介绍,BPU纳什是专门为大参数Transformer、大规模交互式博弈设计的,面向前沿算法优化,可以实现最佳的算法效率。另外,BPU纳什大幅提升了架构的可编程性,超异构计算架构显著增强算力多样性。

4月18日,第20届上海国际车展期间,智能驾驶计算方案提供商地平线发布新一代BPU智能计算架构,纳什架构。

 

从2019年到2021年,地平线BPU(Brain Processing Unit)架构已经历了从伯努利1.0到伯努利2.0再到贝叶斯的三代进化,本次发布的纳什架构是第四代。

 

地平线联合创始人兼CTO黄畅介绍,BPU纳什是专门为大参数Transformer、大规模交互式博弈设计的,面向前沿算法优化,可以实现最佳的算法效率。另外,BPU纳什大幅提升了架构的可编程性,超异构计算架构显著增强算力多样性。


 地平线1.jpg

 

BPU是地平线打造征程芯片的核心技术,要介绍征程芯片的产品特色,必须要理解BPU。

 

01.

高效计算:真正商业价值与用户价值

 

一个时代有一个时代的计算架构,PC手机是CPU,云计算是GPU,地平线希望将BPU打造成智能汽车时代的最佳选择。

 

CPU和GPU作为强大的通用处理器,在深度学习领域时,其单位计算性能却并不具备优势。智驾计算芯片不仅需要保证计算性能,还要考虑功耗、时延和成本,开发专用芯片是提高效能的有效手段。

 

BPU就是这样一种专为高阶智驾设计的计算架构。其从用户场景出发定义计算架构和芯片,通过高效计算,更有效率地实现系统功能,为用户带来更极致智驾体验。

 

当前,大算力的芯片上车是大势所趋,但实际的用户体验和单纯顿算力并不成正比。不仅浪费了算力,还让用户承担“支付但享受不到”的成本。

 

余凯曾直言,L3级自动驾驶十年后恐怕也无法真正实现。眼下业内真正要做的是在合理的性价比下,做好高速和环线NOA这种封闭道路的智能驾驶体验,同时真正投入将城区的NOA做到可用。

 

从更长远的视角来看,地平线的十年愿景,是通过软硬结合使全系统的成本更加合理可控,每一辆车都可以搭载自动驾驶系统,覆盖99%以上道路场景,接管率小于10万公里/次,舒适度五星,且通行效率较人类驾驶提高10%。

 

地平线2.jpg

 

据了解,目前业内几十到1000 Tops的芯片都可以实现高速NOA。而如何在够用的算力上,优化软件,数据闭环,去逼近用户体验的上限,才是当前行业发展的重中之重。

 

为此,地平线提出“智能计算的新摩尔定律”:真实计算效能=理论峰值计算效能 x 有效利用率 x 算法效率。常说的TOPS理论峰值算力之外,更应考虑真实计算效能。地平线将真实计算效能定义为每秒钟处理多少帧图像,即FPS,Frame Per Seconds。而不同计算架构的芯片,在跑相同算法实现功能时,FPS天生就会有很大的差别。

 

 地平线3.jpg

 

基于第三代BPU贝叶斯架构的征程5,峰值算力128 TOPS为算力,真实计算性能为1718 FPS,功耗仅为30 W。而英伟达Orin在峰值算力上虽有254 TOPS,但真实计算性能只有1001 FPS,而且功耗为45W。

 

得益于领先的高效计算性能,征程5与Orin被同样广泛地应用于个主流高端车型上。

 

 地平线4.jpg

 

02.

软硬结合:驱动计算架构“智能进化”

 

以数据为驱动、大规模并行运算的智能计算正取代逻辑计算,成为车载计算的核心。拥有深度学习和神经网络的智能算法,其性能会随数据量、模型复杂度增加持续优化,更好地满足自动驾驶的任务。这种智能计算需要专用的计算架构。

 

地平线5.jpg

 

地平线BPU架构便是由数据驱动的智能计算架构,结合了算法、编译器和架构设计,依托软硬结合的技术路径,经数据驱动实现自动化验证,持续优化计算密度和能量效率,实现算法效率、灵活性和硬件效率的最优解,拥有“智能进化”持续迭代的能力。同时,可加速实现机器的自编程和应用自适应,让机器更自主、让开发更简单、让计算更智能。

 

黄畅曾表示:“过去把算法部署到硬件上,要很多适配,需要工程师深刻理解算法硬件和软件架构才能做到性能的提升。

 

BPU架构做到了把算法也引入到开发的过程中。在BPU下,不需要算法开发者再去理解硬件架构,优化每个算法和每条指令,机器自己就能解决这些问题。能大幅降低开发的门槛,并充分发挥性能。”

 

最新发布的BPU纳什架构更是在前三代基础上持续进化,在多项核心技术上实现突破性进展。

 

黄畅介绍,BPU纳什架构采用三级片上存储架构,可实现核间高效协同,从而优化大参数下的带宽瓶颈。同时,纳什架构具备多脉动立方加速引擎,引擎间数据的灵活流动也能实现高能效和低带宽占用。

 

数据变换引擎可灵活支持Transformer细小算子。浮点向量加速单元则具有通用、灵活的特性,也能满足关键算子精度需求。

 

而紧耦合异构计算单元可高效加速不同类型的数据处理,核内、核间、片间高效灵活的多向数据流动可实现计算动态调度与灵活调优。虚拟化技术能提升多任务并行处理能力,而数据驱动则可优化功耗,针对神经网络数据动态范围的特性,降低30%的功耗。

 

综上,从高斯、伯努利、贝叶斯到纳什架构,BPU始终作为地平线专为智能驾驶打造的计算架构,满足当前自动驾驶的功能诉求和未来发展需求,打造成征程2、征程3到征程5三代现象级芯片。

 

03.

数字基座:基于BPU的征程芯片正成为车企一致选择

 

当前,汽车智能化不断升级,不同的主机厂都对自身车型产品的核心智能竞争力提出了更高要求。使用具备根据智能驾驶场景定制开发的芯片架构,征程芯片在能效、成本、安全上天生拥有诸多优势,无疑为车企提供了足够有说服力的选择理由。

 

基于BPU智能计算架构,地平线已构建了国内最为完整、成熟芯片软硬件生态,依靠工具链和配套设施,实现了超300万片量产出货。BPU架构在提升实际效能的同时,地平线也降低了产业的开发成本与门槛,可有效加速智能驾驶的高效迭代。此外,地平线还正向主机厂开放BPU IP授权,帮助有需要的主机厂自研芯片。

 

 地平线6.jpg


一个时代有一个时代的计算架构。开放合作赋能生态,地平线此前致力于成为智能驾驶时代的"Wintel",而在开放BPU IP授权后,地平线又向"ARM+Android"迈进了一步。

 

对于希望成为智能驾驶时代的底层计算服务商的地平线而言,BPU架构正是其所有商业、生态成绩与愿景背后的技术基础。

 

而对整个行业来说,地平线也有望凭借BPU将智能驾驶带入更快速发展的高效计算时代。

x

收藏 3
打赏
相关标签:
电话:010-65030507
邮箱:editor@autor.com.cn
地址:北京市朝阳区朝外大街乙6号朝外SOHO D座5097室
北京智驾时代传媒科技有限公司          Copyright © 2014 - 2022
Autor.com.cn All Rights Reserved. 版权所有 AutoR智驾 智能汽车网
京ICP备14027737号-1      京公网安备 11010502038466号
电信与信息服务业务经营许可证:京B-20211307
关注官方微信