腾讯李方超:光电交融翻新解决方案全力支撑MegaScaleOut
C114讯 1月16日新闻(艾斯)AI时期曾经降临。年夜模子等新兴AI利用需要海量的算力支持,一座座智算核心拔地而起,范围宏大的万卡集群逐步投入商用。怎样更好地实现智算核心互联,效劳AI利用翻新开展,业界做了大批研讨任务。1月16日,作为“2025中国光通讯高品质开展论坛”的开篇之作,“智算核心互联:算网协同,修建智算互联新底座”线上研究会顺遂召开,集会邀约工业链专家代表,缭绕智算核心间跨地区、跨层级、跨主体、高牢靠的算力协同与调理,以及智算核心互联要害技巧等话题开展了深刻探究。腾讯光收集架构师李方超应邀作了题为《 超年夜范围横向扩大收集》的主题讲演。在讲演中,李方超针对AI年夜模子飞速开展对收集提出的全新挑衅与需要停止了深刻剖析,并具体先容了腾讯针对收集超年夜范围扩大所打造的MegaScaleOut软硬件翻新处理计划。以算力换智力存在物理下限 跨IDC的ScaleOut成为刚需年夜模子的才能每2-3年就会上一个全新的台阶,同时随同着GPU范围响应扩展了数倍以致数10倍。现在,年夜模子练习已从晚期GPT3的千卡范围敏捷扩大至GPT5的10万卡范围。显然,AI的开展与GPU资本线性相干。不外,以算力调换智力自然存在物理资本下限。“从营业的需要与物理供应之间的抵触能够揣摸出,年夜园区的扩大是必定的。”李方超在报告中先容道,参考国际市场开展来看,以谷歌、微软、Meta为代表的北美巨子们正在踊跃规划算力园区,这些Hyperscalers经由过程在本人的上风地区安排多个子园区,以3-4个IDC的方法共建一个超年夜范围的算力集群,以此来实现对电力的供给跟投资保险的保障。作为对照,在海内情况中,假如想练习一个对标GPT5或许Llama4的年夜模子,因为GPU的机能限度,咱们可能须要更多的GPU来实现雷同的算力。同时,跟着多模态练习的到来,差别型号、差别机能的GPU对应差别范例的练习存在最优抉择,这对收集的机动跟义务调配带来了更多挑衅。别的,因为交授予工程的要素,会存在差别型号的GPU与差别厂商的GPU混布在统一个IDC的可能,这些终极会招致呈现GPU碎片池化的成绩。“因而,联合AI的开展跟范围的限度,跨IDC的ScaleOut可能会成为刚需。”李方超夸大。跨IDC ScaleOut存在多重挑衅 IP与光的融会成为最优解他进一步剖析称,当进入到DCI当前,收敛比与牢靠将酿成一个全新的挑衅。对DCI出口而言,年夜象流是一个须要处理的成绩。不外,经由过程优化拥塞把持算法与扩容带宽等方法,便能够无效应答高并发需要。更年夜的挑衅在于处理牢靠性成绩,这重要归因于跨机房之后对光缆的弗成控。比拟传统收集来说,无损体系在带宽降落的时间会直接影响算力才能,收集颤动与丢包也会直接影响RDMA的机能,光缆毛病与颤动成为新的变数。“依据咱们的测算,在丢包0.1%数据的情形下,RDMA的吞吐量会降落10%,因而从机房内到机房间,对跨IDC的场景,带宽富余、链路牢靠是必备的基础需要。”李方超分享了一组具体的测试数据,并指出无奈简略经由过程光缆与装备来调换牢靠性的相对晋升,此中深档次的起因在于“交流机无奈及时预感到行将到来的劣化跟毛病”。于是,腾讯光收集团队认识到,假如能够让交流机疾速地懂得物理层究竟产生了什么,使交流机偶然间去提前履行预约好的战略,并躲避物理层的一些变更,这对IDC的无损收集来说十分有意思。因而,该团队提出,IP与光的融会是跨园区无损收集的最优解。李方超谈到,“针对IP over DWDM,咱们正踊跃推进光器件的小型化与尺度化,也即微光学模块。这一次咱们将经由过程这些翻新,让IP与光能够真正地拉近,实现攻破硬件的隔膜,实现真正的融会。经由过程相关芯片与交流芯片的融会翻新,咱们让交流机具有了物理层安康度的评价才能,为跨IDC的Scaleout做好了所有筹备。”别的,他还具体先容了腾讯在ODCC破项的MegaScaleOut名目组,及其在IP over DWDM傍边的全新硬件DTS在处理DCI牢靠性成绩方面的利用,以及经由过程OCS全光交流装备处理DCI侧利用处理容量按需调配的利用。