上周三,美国收紧对于我国的芯片政策,相比上次,这次更加严苛,不仅用于AI计算的高算力芯片被禁,还可能要波及4090这样的消费级产品。
消息发出后,4090显卡瞬间成为微博热搜,虽然现在还无法确定4090显卡是否会正式出现在这一波的名单中,但从美国修改政策频率来看,芯片已经成为生产力提升过程中的绝对主角。
尽管近些年,我们在GPU或者说加速计算芯片上出现了壁仞100这样不错的产品,但去年刚流片成功的它,今年就被写上了实体清单,所以壁仞100大规模量产很有可能将被推迟。因此,目前在市场上我们还看不到类似英伟达或者AMD的国产GPU。
但在起步更早的国产CPU领域,已经可以看到一些可以达到国际主流水平的产品了,比如在这个月GMIF2023大会上,龙芯宣布最新CPU——3A6000将会在这个季度正式发布。
作为一直关注国产芯片领域的我们,也是早早申请了媒体测试机,终于在两周前拿到了搭载3A6000的主机。
国产芯片啥样?
打开主机,不仅主板和CPU出自龙芯,其余配件也都出自国产厂商,内存和硬盘也分别来自紫光和大华,机箱电源也是来自爱国者。只有显卡采用了AMD的RX580芯片,但战狼的型号命名,让它在一众国产配件前也不是很违和。
龙芯3A6000实拍图,右上角的ES代表测试版
这块最新主板上还集成了龙芯自主研发的最新7A2000桥片,除了用来控制像USB,音频,网络这样的接口外,里面还集成了龙芯自研的GPU芯片,也就是说,即使不装上显卡,这台电脑依然可用,并且实现了全部配件100%国产化。
龙芯自主研发的7A2000桥片,带有GPU功能
在系统方面,除了主流的国产统信操作系统还有龙芯自研的Loongnix。两者都是基于Linux的系统,但为了照顾大家的习惯,在界面设计上都非常贴近Windows,所以用起来的学习成本很低。
真的追上10代酷睿了吗?
在流片成功时,龙芯官方公众号曾发文称,3A6000的总体性能已经追上2020年上市的Intel第10代酷睿4核心处理器,虽然Intel最新的产品是第十三代,但这些年CPU性能过剩,第10代的性能已经足以覆盖日常办公,娱乐和游戏等需求。
并且在频率方面,10代i3也领先不少,它的基础频率就达到3.6Ghz,睿频加速后,单核最高可以达到4.3Ghz。而龙芯3A6000的频率和前一代一样,只是固定的2.5Ghz,不过这次它增加了超线程技术,从4核心4线程升级到了现在的4核心8线程。
这次测试,我们采用了两款软件——SPEC 2006用来测试CPU和Stream用来测试内存速度。
SPEC作为市面上专业的测试软件,SPEC是先编译然后再运行各类测试项目,所以这个软件理论上可以运行在各种架构CPU和各类的系统中,无论是X86还是LongArch,无论是Windows还是Linux上,SPEC都可以用来测试当前平台处理器的性能。因此SPEC也成了目前主流的CPU测试软件。
SPEC编译过程截图
Stream用来测试CPU和内存之间的速度,在CPU设计中,内存控制器是非常关键的一环。因为要处理的数据一般都储存在内存中,所以如果CPU计算速度上去了,但是和内存之间的数据交换速度过慢,就会大大限制CPU的发挥。所以Stream也是必要测试的一个项目。
Stream测试过程截图
在SPEC2006的测试中,龙芯3A6000的整数部分单核得分40.4,多核得分146,浮点部分单核得分51.6,多核得分136。
SPEC得分截图
而10代i3的只有整数单核和浮点多核的得分略高于3A6000,其他两个项目龙芯得分均超过对手。(10代i得分:整数:单核42.5 多核147 浮点:单核51.3 多核 150)
在这个纯CPU计算性能比拼中,龙芯可以说是和10代i3打了一个五五开。看来在计算性能方面,现在的龙芯可以让大家放心了,接下来看看新一代龙芯在内存交互上有着怎么样的表现。
在Stream测试中,龙芯和内存的最高交互速度出现在四线程的测试中,四个项目的速度都超过了40GB/S,在同样的项目中,i310100F只有30GB/S,同样的情况也出现在单线程和8线程的测试中。因此,在内存控制器方面,龙芯的表现已经超过10代酷睿i3了,并且还超出不少。
Stream最终成绩,均超过40G/S
综合上面的这两项测试来看,在理论性能方面,龙芯3A6000确实已经有10代酷睿四核处理器的水平。那么在实际体验中,用起来是怎么样的呢?
不过在此之前,要说一个非常有意思的事情,在拿到龙芯主机时,为了测试兼容性,我把同事的两条频率为3200的16G金士顿内存插上去,测试没有问题后,就一直用了下去。在SPEC跑分的时候,成绩总是低不少,后来把两条国产内存换上去,分数就正常了,看来这国产硬件之间似乎可以产生某种神秘的BUFF。
国产芯片能干啥?
作为自主的研发的代表,龙芯的3A6000在底层上采用了自主研发的LongArch(以下称龙架构),和Intel的X86架构有着非常大的区别。
所以龙芯的CPU无法装载Windows系统,目前只能使用开源的Linux系统,而不同的架构和系统让很多Windows上的软件无法在龙芯的系统上运行。
所以,我们在测试完性能后,还要看看龙芯的生态软件发展成什么样子了,不然买回龙芯电脑只能用它来跑分,而不能用来实际使用一些日常软件,就有些说不过去了。
龙芯目前最主要的任务肯定就是办公生产力了。Linux版本的WPS已经可以很好的适配龙架构了,使用起来和Windows上的不能说大差不差吧,只能说一模一样。大家看到的这篇稿子就是我在龙芯电脑上敲出来的。
轻度办公没问题了,那么重度呢?让我们一起测测看吧。
首先打开50M的百万字的Word文件,基本上可以实现秒开,在经过几秒加载后,就可以顺畅地编辑全文了。在打开200M的Word文件时,会有3秒左右的延迟。这种情况和我日常使用的11代i3移动处理器差不多。
接下来的50M的Excel和PPT以及500页的PDF,都是可以实现秒开,并且直接编辑。但旁边的笔记本这次就要慢上很多了。
在娱乐方面,主板桥片上集成GPU就有点撑不住了,在播放4K本地视频的时候,基本上处于播放PPT的状态。
装上RX580战狼显卡后,视频播放就没有什么压力了,本地4K和B站在线4K都非常流畅,不过要说明一点,在B站观看4K视频中,如果遇到弹幕较多时,会出现掉帧的情况,并且弹幕越多,掉帧越严重。
在游戏上,可以说是有意外收获了,本来以为Linux上并没有什么游戏可玩。但现在的龙芯可以通过转译(可以理解为把外文翻译成中文),可以运行不少X86架构上的游戏,并且流畅度都非常不错。
像劳拉,火炬之光2,甚至魔兽世界都可以流畅运行。经典的CS1.6,魔兽争霸3,通过转译也都可以运行起来,并且还非常流畅。
在做转译测试的时候,发现3A6000居然可以运行Photoshop,虽然会遇到字体的BUG,但日常P图完全够用了。
像浏览网页等日常体验,3A6000可以说是毫无压力,无论是一次开几十个网页还是说各大网站的高清视频播放,体验完整性上丝毫不逊于Intel等X86平台。
国产芯片目前的最大敌人:生态系统
通过理论性能测试和日常使用体验来看,龙芯最新的3A6000确实已经追上2020年发布的10代酷睿四核处理器,并且这还是在频率比竞品低了1个多Ghz的前提下。
按照龙芯董事长胡伟武的介绍,龙芯目前也在践行Intel的Tick-Tock战略,目前处于打磨架构的阶段。下一代龙芯如果能用上比12nm更加先进的制程,那么性能会变得更加强悍。
在2002年龙芯1号刚刚发布的时候,性能只有当时主流型号的5%,2021年的3A5000基本能达到当时主流性能的50%(差不多是第四代酷睿的水平),而今年的3A6000已经基本上追上主流水平了。不得不说,龙芯这几年的性能提升是肉眼可见的快。
图片来源:龙芯在上证路演截图
但这个时候不禁让人想到一个问题,在性能达到主流后,软件生态怎么样?如果空有一身本领,没地方用,那就悲剧了。
如果想要启动个原神,还需要先转译,再繁琐的设置一番,并且玩起来还有些字体上的BUG,那就不好了。
根据目前市面上的主流软件生态,龙芯现在面临三个问题:
第一,需要有一套龙芯自己的系统,并且这套系统的兼容性最好要做到像X86架构下的Windows那样,从Intel处理器换到AMD处理器,系统都可以兼容,在最新的Windows11系统下也可以玩20多年前Windows98上运行的红警2。
第二,能不能搞一套转译性能更好的东西,把X86上成熟的应用做到可用,不要求以多高的性能运行,只要兼容性最好就行。
就像苹果搞的Rosetta1一样,当初Mac从IBM处理器迁移到Intel处理器时,它就保证了不少关键程序的可用性,一直到五年后,基本上所有的程序都完成了Intel的X86架构原生支持,Rosetta1才下线。而2020年,在苹果宣布Mac产品线全部从Intel转移到自研的M芯片后,Rosetta2正式上线,至今帮助不少像AfterEffects等专业软件保证兼容可用。
苹果转向Intel芯片时,专门推出Rosseta1
第三,就是如何吸引更多的开发者来开发基于龙架构的应用?只有开发者多了起来,龙芯应用才会出现百花齐放的效果。
好在3A6000成功流片后,龙芯内部也意识到这个问题。在今年的业绩说明会中,胡伟武把龙芯自己的生态解决方案拿了出来。
首先,龙芯要基于Linux打造自己的操作系统——Loongnix(以下称龙系统)。传统的Linux在大的版本更新后,软件兼容性上常常会出问题,打个比方,就像大家从Windows10升级到Windows11,突然发现,在Win10上运行好好的软件,在Win11要么无法运行,要么运行起来一大堆的Bug。
龙系统目前着重解决的就是应用在不同版本Linux之间不兼容的问题,现在在龙系统上运行的软件,在大更新以后,也依然可用。在硬件兼容性上,龙系统的目标也是达到任何一代龙架构的CPU,都可以运行最新的龙系统。
龙系统另外一个目标就是要打造成为Linux里面的安卓,其他使用龙芯CPU的厂家可以根据自己的需求在龙系统上进行魔改,就像小米在安卓上开发出自己的Miui一样。
另外在开发应用上,龙芯目前也在学习iOS和安卓,打算搞出一套自己的龙芯自主编程框架。帮助开发者们更好地开发基于龙架构的各种生态应用。相信过几年应该就可以在微信安卓版旁边看到微信龙芯版了。
其次,在转译方面,龙芯也在努力地搞出一套高效的转译,因为具有完全的自主性,所以添加一些优化进去,会更加方便。不过这个转译效果来看,目前还不够理想,比如前面测试Photoshop,还有一些游戏等,多少会有影响使用的BUG出现。
希望在未来优化过后,能做到苹果一样的效果就好,效率也不用特别高,能达到转译前的80%左右就行,主要是兼容性要好。这样才能吸引更多的Windows用户过来。
另外,根据介绍,接下来龙芯这套转译系统还会支持ARM上的应用,所以不久后应该就能看到一些安卓应用在龙芯上跑起来了。
最后就是如何吸引开发者过来,说实话,这是一个很难破解的难题。想要有更多的开发者,就需要有很大的用户基础,想要更多的用户,就需要有开发者开发出好用的程序。
因此,想要打破这个循环,就需要有一方做出部分牺牲,是用户牺牲体验,还是开发者牺牲收益。目前来看,龙芯的做法只能是后者。毕竟,在开放性的市场,不能让按着用户的头来用自己的产品。所以龙芯现在大力加强浏览器,影音软件等基础软件体验,然后再联合微信,QQ,腾讯会议,飞书等这样的大企业把必要的应用生态做好,吸引更多的用户进来,从而进入到一个良性循环。
芯片追赶,一切才刚开始
两年前,我们还在为中国自主的CPU的性能突破庆祝,现在,3A6000的出现,让性能不再成为国产CPU的短板。我们反而开始担心起来没有软件在这颗处理器上运行起来。
起初我想用甜蜜的负担来形容这一切,后来我发现,想要打造自己的芯片,其实远比我们想的要难。
当你的芯片性能足够好的时候,你还需要建立起一整套自己的生态体系,用户才能买单。
在这一点上,龙芯才刚开始。
虽然竞争对手已经霸占市场多年,但龙芯的机会还是有很多的。从上到下的自导自主,意味着很多方面优化起来会更加方便。比如传统X86平台的电脑,在运行一些机密软件的时候,需要配一台密码机才可以,而龙芯因为内部添加了这些加密的指令集,所以使用龙芯电脑的时候,不需要添任何外部设备,就可以运行这些加密的软件。
在生态上的追击,龙芯表现出的决心更大,在今年的多场演讲中,胡伟武多次提到,在性能追平后,将全力转到生态建设上来,目前龙芯自己就有几百名软件开发人员,下游的开发人员更是达到了几十万。相信几年后,我们就能看到一套生态基础完善,迈入良性循环的龙芯体系。
在GPU方面也是如此,现在我们已经有了超过英伟达A100的壁仞100,但英伟达靠着CUDA已经培养出一大批在GPU上编程的开发者。这就像苹果的iOS一样,背靠如此多的开发者,就会有非常多的应用给用户使用。对于英伟达来讲,CUDA就是它的iOS。
目前刚刚起步的国产GPU公司也意识到这个问题,像壁仞和摩尔线程,它们在追赶性能的同时,也在大力发展自己的社区,兼容目前主流的开发框架。
国产芯片的未来,让人无比期待,龙芯用了20年就追上了别人60年的水平,所以现在,请大家给予国产GPU芯片的一些宽容和支持,生态环境还需大家一同建设。
参考资料:
https://www.oschina.net/news/251812 龙芯中科官方公众号
https://zhuanlan.zhihu.com/p/652886534 10代i3数据
https://m.jrj.com.cn/madapter/finance/2023/07/11082237682237.shtml 壁仞科技BR100资料