本文来自微信公众号:CSDN(ID:CSDNnews),作者:马超,题图来自:视觉中国


目前半导体行业的发展可以用冰火两重天来形容,传统的桌面及移动SOC(System on a Chip,系统级芯片)市场已经基本停止增长,而云计算成了各大巨头的兵家必争之地。


在行业整体突飞猛进的基础上,技术之魂帕特·基辛格从VMware回归后,英特尔便开始了史无前例的颠覆式革新,最近他们展示的全新一代计算结构Alder Lake,为x86的未来创新带来了全新的性能分配方案,也让英特尔彻底摘掉了“牙膏厂”的帽子。


另外一家半导体公司英伟达,在今年新品发布会上,也如期拿出了首款CPU芯片Grace,剑指AI云,不过英伟达早于去年欲收购ARM的计划如今受阻,一定程度上也影响了其在云计算领域的脚步。


个人认为英伟达应该对于帕特·基辛格的老东家VMware给予更多的关注,一旦他们用400亿美元收购ARM的交易被监管机构叫停,此时如果能将VMware收入囊中也很可能帮助他们在云数据中心方面变得更强。


毕竟放眼英特尔与英伟达的双“英”大战中,先搞定虚拟化平台的一方将获得极大的竞争优势。


一、Alder Lake vs. Grace,巨头也能起舞


在竞争中,新品的诞生明显都从竞品身上得到了很多有益的灵感,比如Alder Lake本次最大的升级就是引入了能效核与性能核的设计,虽然能效核与性能核这个概念听起来比较陌生,但从本质上看这个概念与ARM的big.LITTLE大小核架构没有什么大的差别,设计思路都是让小核去处理那些对算力要求比较低的问题,大核则专注于处理计算密集型的任务。


不过大小核技术在移动SOC的应用非常容易实现,在手机熄屏待机时用小核工作,而当用户进行游戏或者观看视频时则启动大核,两核中核心各负责一摊,界限分明井水不犯河水,应用效果很好。


但是大小核技术之前一直被认为不适合于云计算场景。由于绝大部分云场景都依赖于SIMD单指令多数据的硬件加速技术,而一般来说传统的小核都不支持AVX512等SIMD指令集,这也让大核在云计算的应用中几乎要全程待命,没有时间休息,所以英特尔在Alder Lake之前一般使用睿频技术也就是通过调节主频来进行能耗的优化。


但这次不一样了,英特尔对小核的优化简直令人瞠目结舌,Alder Lake的小核拥有5000个条目的分支目标缓存区,实现更准确的分支预测;并将指令缓存扩充到64K;簇乱序执行解码器,可在保持能效的同时,每周期解码多达6条指令,直接支持了AVX指令集,并且还能在性能保持一样的情况下,将能耗控制在前代的40%,这样也就让小核几乎可以应对绝大多数云场景,只有少量计算密度极大的场景下才需要大核下场参与,做到这么极致的程度引入大小核的设计完全没问题。


由于Grace和M1都是基于ARM架构的处理器,我们明显能从英伟达的Grace身上看到苹果M1的影子,由于ARM属于RISC精简指令集阵营,指令都是定长的,这使得ARM处理器在指令解码等方面天然比x86更具优势,x86的处理器做到6路解码基本就已经到了能耗极限,但是ARM处理器则可以轻松达到这一目标。根据黄仁勋在大会上的介绍,Grace最大的创新点在于把CPU与GPU之间的通信速度提升了近10倍,“这是一万名工程人员历经几年的研发成果,旨在满足当前世界最先进应用程序的计算需求,其具备的计算性能和吞吐速率是以往任何架构所无法比拟的。”


类似于DMA控制器在磁盘与内存之间搭建了一条快速通道一样,Grace体系中GPU核心与CPU核心之间的通信不需要CPU的调度,也不需要占用数据总线的带宽,之前CPU必须将数据从其内存的区域复制到GPU使用的区域,而在Grace的加持下,CPU只需要告诉GPU在内存的某位置有30MB的向量数据,然后就可以去做其它事了,GPU则可以通过Grace复制通道迅速开始计算任务。


这方面的威力我们可以从苹果的正确示范中得到启示,在苹果M1中显卡与内存加在一起只有16G,对比上一代MAC PRO内存128G,光是显存都有16G,不过搭载M1的入门版MAC在进行图像处理等需要CPU与GPU进行协同的运算任务时,至少比上一代顶配的MAC性能高出近一倍。其中的秘决就是将内存与显卡进行统一管理,从而大大提高了CPU与GPU的通信效率,因此英伟达的技术路线肯定也是非常有道理的。


但是这种颠覆式的革新,背后也有隐忧,想在云计算的领域立足恐怕还有很长的路要走。


二、想腾云,虚拟化是必须迈过去的坎


无论是Grace还是Alder Lake想在云计算领域有所作为都必须要迈过虚拟化的坎,比如Grace打通内存、显存的方案,在云计算这种多租户共存的场景下困难很多,在内存、缓存共享的方案下,CPU和GPU必须轮流访问主存储器,这就意味着他们要争夺数据总线的使用权,那么不同租户之间的界限如何划分就成了一个很值得讨论的问题。


在实践中单独一个GPU按照不同租户划分虚拟化能力的方案,都还不完全成熟,如何将Grace这样的CPU与GPU的融合计算处理器进行虚拟化更不会是一个容易解答的问题


Alder Lake大小核也是同样的问题,假如用户购买了一台1核的云主机,那么到底买的是大核还是小核呢?如果是大小核的综合体那么如何进行调度呢?为了解决调度难题,Intel在Alder Lake处理器中引入了Thread Director技术,Alder Lake处理器中集成了一个专用的MCU,用来监控当前处理器内核的运行情况,能够监测到每个线程的特征,比如它运行什么样的指令集、它的性能需求如何等等。


在收集完信息之后,它会将收集到的信息反馈给操作系统,而操作将会把这些信息与自己线程调度器相结合,判断是否应该将线程转移到别的核心上。如果与操作系统结合的好,那么一轮信息采集工作仅需要30微秒就能完成,而传统的调度器可能需要100多毫秒才能判断出结论,不过明显可以看到这是一项需要与操作系统进行深度结合的技术,没有软件方面支持,Thread Director发挥不出来效果。从目前的情况看Thread Director已经与Windows 11进行了结合优化,但是在云服务器领域Windows的份额几乎可以忽略不计,而Thread Director如何与虚拟化平台结合以实现资源的隔离,我目前还没有看到任何有关的动作。


对于打造软、硬结合IT生态的重要性,英伟达和英特尔都有很深刻的认识,比如英伟达还与Grace同时发布了Transformers框架Megatron、合成模型Omniverse、药物研发加速库Clara Discovery模型等软件产品,这些技术与英伟达的CUDA联合使用效果是非常好的,当然可能也是因为英伟达的产品全线都太香了,后来还引发了一个真假老黄的史诗级乌龙。


英特尔这次也适时推出了oneAPI的整合框架,基于oneAPI开发软件,无需考虑是CPU还是GPU还是TPU的问题,oneAPI会自动让你的代码在最适合的设备上运行。


但是在云计算虚拟化软件的生态方面VMware是当之无愧的王者,他们的ESXi/vSphere技术栈在管理的虚拟化CPU和GPU融合计算平台方面,与英特尔和英伟达都有着巨大的互补性。在云计算领域中“数千万台”服务器将在云端或者边缘运行人工智能,并将通过GPU加速,这是一个上百亿美元的巨大市场,而VMware以其特有虚拟化软件优势,能否成为巨头们下一个竞相收购的对象值得我们观察。


本文来自微信公众号:CSDN(ID:CSDNnews),作者:马超

点赞(0)

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部