极速赛车手机官网

特斯拉全自动驾驶(FSD)芯片解析

2019-09-24来源: 半导体行业观察关键字:特斯拉  FSD
在IEEE年度Hot Chips大会上,特斯拉的FSD芯片是众多出色的演讲之一。在今年4月的自动驾驶日,特斯拉首次公开了他们的全自动驾驶(FSD)芯片。而在最近的Hot Chips 31大会上,特斯拉对芯片的一些关键组件提供了一些新的见解。



特斯拉工程师为FSD芯片和平台制定了许多主要目标。他们希望在功率范围内尽可能多地提升芯片TOPS。为了安全起见,芯片的主要设计点是在批量为一的情况下芯片的高利用率。值得注意的是,FSD芯片随附了一组用于通用处理的CPU和一个用于后处理的轻量级GPU,这不在本文的讨论范围之内。这些组件已在我们的主要文章中详细介绍。

神经处理器


尽管芯片上的大多数逻辑都使用经过行业验证的IP块来降低风险并加快开发周期,但特斯拉FSD芯片上的神经网络加速器是特斯拉硬件团队完全定制的设计。它们也是芯片上最大的组件,最重要的逻辑部分。

特斯拉谈到的一个有趣的小插曲是模拟。在开发过程中,特斯拉希望通过运行自己的内部神经网络来验证他们的NPU性能。因为他们在早期没有准备好仿真环境,所以他们求助于使用开源的Verilator模拟器,他们说这个模拟器的运行速度比商业模拟器快50倍。“我们广泛使用Verilator来证明我们的设计非常好,”特斯拉自动驾驶仪硬件高级总监Venkataramanan说。

每个FSD芯片内部有两个相同的NPU,它们物理上彼此相邻集成。当被问及使用两个NPU实例而不是一个更大的单元的原因时,特斯拉指出,每个NPU的大小都是物理设计(时序,面积,布线)的最佳选择。


ISA


NPU是具有乱序内存子系统的有序计算机。总体设计有点像是一种状态机。ISA包含最多4个带有复杂值的插槽的指令。总共只有八条指令:两条DMA读写指令、三条点积运算指令、缩放指令和元素添加指令。NPU只是简单地运行这些命令,直到点击停止命令停止它。还有一个额外的参数槽(parameters slot )可以改变指令的属性(例如,卷积运算的不同变化)。有一个标志槽(flags slot),用于处理数据依赖项(dependencies handling)。还有另一个扩展插槽,这个插槽存储了整个微程序序列的命令,这些命令在进行复杂的后处理时将被发送到SIMD单元。因此,指令从32字节到非常长的256字节不等。稍后将更详细地讨论SIMD单元。
 

 

初始操作


NPU的程序最初驻留在内存中。它们被带入NPU,并存储在命令队列中。NPU本身是一种非常出色的状态机,旨在大大减少控制开销。令队列中的命令将被解码为原始操作,并提供一组用于数据需要从何处获取的地址—这包括权重和数据。例如,如果传感器是一个新拍摄的图像传感器照片,输入缓冲区地址将指向那里。所有内容都存储在NPU内部的超大缓存中。从那以后就没有DRAM交互了。
 
高速缓存的容量为32 MiB,并且是高度存储的,每个bank只有一个端口。特斯拉指出,有一个复杂的bank仲裁器,连同一些编译器提示,用于减少bank冲突。每个周期中,最多可以将256个字节的数据读取到数据缓冲区中,并且最多可以将128个字节的权重读取到权重缓冲区中。根据步幅的不同,NPU可以在操作开始之前将多行数据引入数据缓冲区,以便更好地重用数据。每个NPU的组合读取带宽为384B/cycle,其本地缓存的峰值读取带宽为786 GB/s。特斯拉说,这使他们能够非常接近维持MAC正常运行所需的理论带宽峰值,通常至少80%的利用率,很多时候会达到更高的利用率。

MAC阵列

CNNs的主要操作当然是卷积,卷积占特斯拉软件在NPU上执行的所有操作的98.1%,反卷积占1.6%。在优化MAC上花费了大量的精力。
 
MAC阵列中的数据重用很重要,否则,即使每秒1 TB的带宽也无法满足要求。在某些设计中,为了提高性能,可以一次处理多张图像。但是,出于安全原因,延迟是其设计的关键属性,因此它们必须尽快处理单个图像。特斯拉在这里做了许多其他优化。NPU通过合并输出通道中X和Y维度上的输出像素,在多个输出通道上并行运行。这允许他们并行化工作,并同时处理96个像素。换句话说,当它们处理通道中的所有像素时,所有输入权重都是共享的。此外,它们还交换输出通道和输入通道循环(请参见下图的代码段)。这使它们能够依次处理所有输出通道,共享所有输入激活,而无需进一步的数据移动。这是带宽需求的又一个很好的降低。

通过上述优化,可以简化MAC阵列操作。每个阵列包括9,216个MAC,并排列在96 x 96的独立单周期MAC反馈环路的单元中(请注意,这不是收缩阵列,单元间没有数据移位)。为了简化其设计并降低功耗,它们的MAC由8位乘8位整数乘法和32位整数加法组成。特斯拉自己的模型在发送给客户时都是预先量化的,因此芯片只存储8位整数中的所有数据和权重。
 
每个周期,输入数据的底部一行和权值的最右边一列将在整个MAC数组中公示。每个单元独立执行适当的乘法累加运算。在下一个循环中,输入数据将一行向下推,而权重网格将一行向右推。这个过程是重复的,输入数据的最底一行和权值的最右列在数组中公示。单元继续独立执行其操作。全点积卷积结束时,MAC阵列每次下移96个元素,这也是SIMD单元的吞吐量。


NPU本身实际上能够运行超过2 GHz的速度,尽管特斯拉引用了所有基于2 GHz时钟的数字,所以可以推测,这就是生产时钟。在2GHz下运行,则每个NPU的峰值计算性能为36.86 teraOPS (Int8)。NPU的总功耗为7.5 W,约占FSD功耗预算的21%。这使得它们的性能功率效率约为4.9TOPs/W,这是迄今为止我们在已出货芯片上所见过的最高效率之一,与英特尔最近宣布的NNP-I (Spring Hill)推理加速器不相上下。尽管特斯拉NPU在实际中的通用性有点可疑。但请注意,每个芯片上有两个NPU,它们消耗的总功率预算略超过40%。
 

SIMD单元


从MAC阵列,将一行压入SIMD单元。SIMD单元是可编程执行单元,旨在为特斯拉提供一些额外的灵活性。为此,SIMD单元为诸如sigmoid,tanh,argmax和其他各种功能提供支持。它带有自己丰富的指令集,这些指令由从机命令定序器执行。从命令排序器从前面描述的指令的扩展槽中获取操作。特斯拉表示,它支持你在普通CPU中可以找到的大多数典型指令。 除此之外,SIMD单元还配备了可执行归一化,缩放和饱和的管状量化单元。


将结果从SIMD单元转发到pooling unit(如果需要),或者直接转发到write-combine,在write-combine中,结果会以128B/周期的速率被机会性地写回SRAM。该单元进行2×2和3×3的池操作,在conv单元中进行更高阶的处理。它可以进行最大池化和平均池化。对于平均池,使用基于2×2/3×3的常量的定点乘法单元替换除法。 由于特斯拉最初对MAC阵列的输出通道进行了交错处理,因此它们会首先进行适当的重新对齐以进行校正。


总而言之,特斯拉实现了它的性能目标。FSD计算机(HW 3.0)的性能比上一代(HW 2.5)提高了21倍,而功耗只提高了25%。特斯拉的FSD芯片和FSD计算机今天已经发货。


关键字:特斯拉  FSD

编辑:muyan 引用地址:http://news.1900222.com/qcdz/ic475443.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:极速赛车手机官网全国第一张自动驾驶商用牌照发出 百度抢先
下一篇:极速赛车手机官网Silicon Labs推出更广泛的汽车级时钟解决方案系列产品

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

极速赛车手机官网特斯拉Model S与保时捷Taycan的攻防演练

接前日的话题,在Nurburgring的赛道上,特斯拉的Plaid动力系统Model S原型车,和保时捷Taycan开始了单圈最快纪录的攻防演练,这涉及到两家公司的颜面问题。Tesla  Sep 20 Data from our track tests indicates that Model S Plaid can achieve 7:20 at the Nürburgring. With some improvements, 7:05 may be possible when Model S returns next month. 特斯拉推特而昨天的故事,这台车用力过猛,拖回去了。 
发表于 2019-09-24
特斯拉Model S与保时捷Taycan的攻防演练

特斯拉电动卡车原型车现身皮克斯总部,距离量产已不远?

自2017年发布之后,特斯拉的电动卡车最近又有了动静。 据国外媒体报道,在推出并量产Model S、Model X等多款电动汽车之后,电动汽车厂商特斯拉在2017年11月推出了电动卡车Semi,预计2020年开始量产。  虽然特斯拉方面是计划在明年开始量产电动卡车Semi,但其原型车很早就已现身,近日又出现在了皮克斯总部。 外媒是在当地时间9月21日的报道中,提到电动卡车Semi原型车现身皮克斯总部的。从外媒的照片来看,当时出现在皮克斯总部的,是一辆红色的Semi,并不是两年前的发布会上出现的黑色和白色。 与电动卡车Semi原型车一同现身的,还有多辆特斯拉的电动汽车,不过外媒在报道
发表于 2019-09-24
特斯拉电动卡车原型车现身皮克斯总部,距离量产已不远?

Rivian在亚马逊的帮助下正拥有向特斯拉“叫板”的资本

特斯拉在电动卡车领域遇到了强劲的对手Rivian。 亚马逊投下的10万辆货车订单可能只是一个开始。 亚马逊宣布,该公司将从美国电动车初创公司Rivian订购10万辆电动送货车。这是史上最大的轻型电动车采购订单,也是电动车普及速度加快的一个转折点。 亚马逊创始人兼首席执行官杰夫·贝佐斯(Jeff Bezos)表示,此次采购电动车一方面是为了帮助亚马逊在2040年之前实现碳中和目标,另一方面是为了通过削减年度燃料预算,节省资金。  此前据外媒报道,世界各地的亚马逊员工和消费者正计划举行抗议活动,以促使该公司采取措施应对气候变化。实际上,减少碳排放对亚马逊来说是个十分具有挑战性的目标
发表于 2019-09-24
Rivian在亚马逊的帮助下正拥有向特斯拉“叫板”的资本

“中国特斯拉”之称的蔚来四年亏损50亿美元,资金已不足?

特斯拉公司在15年间累计亏损了50亿美元。相比之下,有着“中国特斯拉”之称的蔚来汽车只用了4年。蔚来汽车的亏损仍在继续,该公司将于周二发布第二季度财报。根据两位分析师的平均预期,蔚来汽车第二季度将再亏损26亿元人民币(约合3.69亿美元),大约每天亏损400万美元,使得公司自2014年创建以来的累计亏损达到大约57亿美元。 特斯拉公司在15年间累计亏损了50亿美元。相比之下,有着“中国特斯拉”之称的蔚来汽车只用了4年。蔚来汽车的亏损仍在继续,该公司将于周二发布第二季度财报。根据两位分析师的平均预期,蔚来汽车第二季度将再亏损26亿元人民币(约合3.69亿美元),大约每天亏损400万美元,使得公司自2014年创建以来的累计
发表于 2019-09-24

还记得特斯拉自动驾驶芯片吗?目前已开启旧车型改造计划

左右开始)以及4月份以来所有新款3型车(从4月12日左右开始)以来,全新的Model S和Model X车型均采用了新型自动驾驶电脑。 但特斯拉也承诺为配备Autopilot 2.0和2.5的购买了特斯拉的全自动驾驶套件的特斯拉车主提供新的改装。 马斯克说以下关于提供改装的计划(FSD代表'完全自驾车'): “购买全自动驾驶的人将免费获得FSD电脑升级。这是Autopilot HW2.5和HW3之间唯一的变化。前进“HW3”将被称为FSD计算机,这是准确的。无需更改车辆传感器或线束。这个非常重要。” 自4月以来,这台新电脑已经在所有新特斯拉汽车中使用,但我们还没有听说过改装计划
发表于 2019-09-20
还记得特斯拉自动驾驶芯片吗?目前已开启旧车型改造计划

特斯拉自动驾驶新专利 “高速布线架构”优化FSD冗余设计

据外媒报道,最近,特斯拉提交了一项名为“高速布线系统架构”的专利申请,以解决其全自动驾驶(FSD)套件面临的一个重要问题:冗余,并且该专利于当地时间8月15日被正式公布。传统的计算机布线系统通常在通信中没有设计冗余部分,都是单个设备连接至一个中心点(如一个处理器),该处理器与每个设备单独通信。通常,线缆会将数据从设备传输至处理器,或者将数据从处理器传输至设备,每根线缆在运行过程中都只能单向传输数据。如果其中一根线缆失效,那么与设备的通信也会失败,而在自动驾驶环境中,可能会导致整个系统发生故障。如果只是增加备用线缆也不是一个很好的解决方案,因为线缆越多,连接点也会更多,进而电路板就会更大,最终造成更高的制造成本。特斯拉公布的布线结构
发表于 2019-09-12
特斯拉自动驾驶新专利 “高速布线架构”优化FSD冗余设计
小广播
电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 极速赛车手机官网电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2019 1900222.com, Inc. All rights reserved
极速赛车双面盘 极速赛车双面盘 极速赛车手机官网 极速赛车手机版下载 极速赛车双面盘 极速赛车双面盘 极速赛车APP 极速赛车APP 极速赛车APP下载 极速赛车双面盘