光互连技术加持!中国首个自主GPU超节点亮相
来源:李智衍 发布时间:5 天前 分享至微信
近日,由曦智科技、壁仞科技、中兴通讯与上海仪电联合开发的“光跃LightSphere X”超节点首次公开亮相。这是中国首个采用光互连与光交换架构的GPU超节点,将率先部署于上海仪电智能算力中心。

据官方介绍,该技术聚焦于为国内AI训练推理任务提供算力支持,强调本土GPU的自主设计与封装整合能力。尽管仍处于初期应用阶段,但这一技术对中国推进AI算力基础设施建设、降低对外部技术依赖具有重要意义。

光互连与Chiplet封装突破算力瓶颈

“光跃LightSphere X”的核心设计亮点在于引入了硅光技术的光互连与分散式光交换(dOCS)架构。相比传统铜缆,光缆具备高带宽、低延迟的传输优势,能够突破单机柜功耗与布线限制,在不改变现有数据中心设施的前提下,扩展算力超节点规模。

此外,该系统采用了壁仞科技开发的高算力GPU模块,结合小芯片(Chiplet)与CoWoS 2.5D封装技术,并辅以液冷设计,显著提升了单卡性能与散热效率。官方表示,该系统可支持多达2000张GPU的弹性部署,能够满足多样化AI模型的训练与推理需求。

分散式光交换提升系统灵活性

与传统的集中式网络交换不同,“光跃LightSphere X”采用分散式光交换技术,将部分交换能力下沉至GPU节点本身。这种设计能够根据模型需求与任务场景动态调整网络拓扑,从而提升系统容错能力与资源使用效率。

例如,当部分节点发生故障时,系统可快速重新构建拓扑路径以维持运行,同时减少因冗余备援造成的资源浪费。此外,该系统搭载的自研智算云平台,可支持资源调度、任务分配与节点监控管理。该平台能够根据模型特性自动配置节点拓扑,并在节点异常时快速切换至备用资源,降低训练中断风险。

不过,整体管理系统与海外主流平台相比仍有优化空间,特别是在跨节点调度效率和软件生态整合方面,仍需进一步验证与提升。

本地化优势助力AI算力自主化

目前,“光跃LightSphere X”主要应用于智算中心,适合长时间高负载的AI训练与推理任务。从成本与部署角度来看,这一方案完全采用国内自主研发的架构与封装技术,相比进口GPU方案,有助于降低成本并增强对自主供应链的掌控。

官方强调,该系统的硅光交换芯片、封装架构与系统软件均为国内自主研发,旨在建立具备自主可控属性的AI基础架构。硬件方面,光交换芯片不依赖进口先进制程,并兼容多种协议;软件方面,已具备基本的任务调度与系统管理能力。

尽管该方案已问世,但其能否支撑高强度训练负载系统,仍需通过实际部署与测试来验证。
[ 新闻来源:李智衍,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!