3亿刀,特斯拉1万个H100集群上线!超算Dojo7月已经开工,全力加速L4自动驾驶

时事新闻2023-08-29 16:08:01无忧百科

3亿刀,特斯拉1万个H100集群上线!超算Dojo7月已经开工,全力加速L4自动驾驶


新智元报道

编辑:润

【新智元导读】特斯拉10000块H100 GPU集群上线,加速FSD V12落地。拥有自家超算的和H100集群的特斯拉,正式入局算力军备竞赛!

根据特斯拉爆料人士Sawyer Merritt爆料,特斯拉将于美国时间本周一上线备受期待的,由1万片H100组成的超级计算机。


这个GPU集群将用来训练包括特斯拉FSD自动驾驶系统在内的各种AI应用。

这个GPU集群由一万个英伟达H100GPU组成,能提供340 FP64 PFLOPS的峰值算力,为AI提供39.58 INT8 ExaFLOPS的峰值算力。

这个算力峰值超过了之前全世界排名第四的超算Leonardo所能提供的算力。


凭借这台超级计算机,特斯拉可以迅速训练并更新它的全自动驾驶(FSD)技术。

这个H100 集群不仅让特斯拉相比其他汽车制造商更具竞争力,而且将使特斯拉拥有夸张的算力储备。


马老板上个月甚至发推称:「坦白说……如果英伟达能提供足够的GPU,我们可能就不需要 Dojo。」

特斯拉的算力储备有什么用?

而且对于特斯拉来说,这个H100集群不单代表了无与伦比的算力,还使得拥有海量数据的特斯拉能将这些数据变现的能力。

特斯拉工程技术总监Tim Zaman发推称,特斯拉上线的H100集群,将被用于训练视频数据。

特斯拉拥有的训练数据集可能是全世界最大的,热连接缓存(hot tier cache)大小超过了200PB,这比大语言模型的数据规模要高几个数量级!


同时他还称,特斯拉是真正「物理上」拥有这些GPU集群和算力。很多其他的公司宣称自己「拥有」多大算力时,其实他们只是能「租到」这些算力。


而对于目前的特斯拉来说,上线H100集群的意义就在于能够极大地加快最新版FSD V12的上线速度。

马斯克在两个月之前称,最新版的FSD V12版本更新将不再是「测试版」的自动驾驶技术,暗示了这次更新可能真的能带来完全体的自动驾驶技术。


直播中,新版的FSD V12展示出了「丝滑的自动驾驶性能」和出色的驾乘体验。

FSD V12背后的技术原理,就是将海量的优秀司机驾驶的实时视频,通过神经网络训练成一个全新的自动驾驶AI来驾驶汽车。

特斯拉上线这个H100集群后,将会大大加快FSD V12的训练速度,这也被上文中特斯拉工程总监的帖子所证实。

马斯克在推特上称,V12可能将在不到半年的时间内更新上线!


而除了特斯拉FSD V12之外,特斯拉的人形机器人Optimus也将从特斯拉储备的巨大算力中获益。


网友分析到,因为智能机器人的工作原理,本质上也是从视频信号中去理解周围的世界。这和自动驾驶的本质是一样的,只是形态和控制方式有区别。

特斯拉超算Dojo怎么样了?

Tesla上线H100 GPU 集群的同时,也在激活自己研发制造的超算Dojo。下图是特斯拉内部对Dojo计算能力的预测。

2024 年 10 月,Dojo 的计算能力也有望达到 100 exaflops。


在2021年的AI Day上,特斯拉第一次公布了自己超算——Dojo。


快两年时间过去了,在今年7月推特(现X)科技爆料账户Whole Mars Catalog爆料Dojo已经正式开始开始工作了。

这一消息也得到了马斯克本人的点赞确认。


整个超算由这样的计算模块构成


每个模块上有25个Soc,模块之间通过高速宽带连接。


然后将模块用主机盒固定起来,所有的接口都集成在了系统托盘上。


然后将两个带有主机组件的系统托盘安装到一个Dojo机柜中。


顶部的图例展示的是每个Soc的负载。

而现在,拥有Dojo和1万块H100集群的Tesla,正式加入了算力军备竞赛当中。

参考资料:

https://www.tomshardware.com/news/teslas-dollar300-million-ai-cluster-is-going-live-today

https://twitter.com/SawyerMerritt/status/1696011140508045660


相关推荐

猜你喜欢

大家正在看