天津大学科学技术发展研究院

成果推介|天津大学高价值科技成果系列之:李克秋、李文信团队-凌波RDMA网卡

日期:2025-12-30 作者: 浏览:


视频链接:https://mp.weixin.qq.com/s/of3smhNUzhMvd8jke54MSw

所属领域

  • AI集群基础设施、超大规模集群网络系统

成果介绍

行业痛点  

  真正决定下一代算力格局的,不是单卡性能或节点内互联,而是十万卡以上规模的 AI 集群是否真正具备可行性。随着 AGI 与超大规模多模态模型成为主流,模型参数加速迈向十万亿级,训练范式从“堆算力”转向“极致并行协同”;与此同时,商业竞争本质上是与时间赛跑,头部厂商必须在三个月内完成模型训练、迭代与部署,算力规模直接决定是否具备入场资格;在更高层面,十万卡级 AI 集群已逐步成为支撑国家科技创新、产业升级与安全能力的重要基础设施。然而,当前行业的技术体系仍主要围绕千卡、万卡规模设计,核心瓶颈并不在节点内,而在节点之间:节点内 GPU 通过 NVLink、UB 等私有 Scale-up 网络已实现 Tb 级带宽,而跨节点通信仍依赖通用 Scale-out 网络,经由 AI 网卡与多跳交换后,带宽折损、拥塞放大和连接规模失控问题在十万卡场景下被系统性放大。结果是,算力规模可以堆出来,但有效算力难以释放,训练效率随规模增长反而下降。因此,十万卡集群的成败,本质取决于 Scale-out 网络能否同时实现超高有效带宽、万级并发连接能力,并在兼容异构算力的前提下保持可接受的成本——这已经不再是渐进优化问题,而是当前 AI 基础设施体系面临的结构性痛点。

解决方案

   凌波智芯基于原生 RoCE 重新定义网卡架构,针对十万卡级集群在 Scale-out 场景下面临的带宽利用率低、并发连接受限和重传效率不足等核心痛点,提出无链接的设计思路。不同于英伟达将 QP 与链路一对一绑定的全链接架构,我们用高效队列调度取代“专链路”模型,使 QP 只负责数据生成与投递,由网卡内部的调度中心统一完成多路径与带宽分配,从根本上释放并发能力。在此架构上,我们进一步构建三项核心能力:HP4流控技术在不改动交换机的前提下,将流量以临界速率直接注入网络,在十万卡集群 All-Reduce中有效带宽提升 6.4 倍、完成时间降低 59%;QPress 并发连接通过硬件压缩与调度补位机制,将并发 QP 数量提升 5 倍、时延降低 62.5%;SSR 极速重传依托无链接设计实现队列级硬件重传,重传时延降低 96%、状态存储需求下降 80%。整体上,凌波智芯以架构级创新补齐 Scale-out 网络短板,为十万卡级 AI 集群提供可落地、可扩展的互联底座。

主要指标


团队介绍

李文信教授带领的智算网络团队,聚焦智算中心大规模集群的网络通信瓶颈,在拥塞控制、流调度、高并发Roce协议栈、网卡硬件架构设计、负载均衡、网内计算等领域技术积累深厚,完成自研RDMA网卡架构的设计研发。目前相关技术以天津大学为第一单位首次突破网络系统最顶级会议SIGCOMM、NSDI,并与多家单位展开合作研发,获海棠杯天津大学校友创新创业大赛一等奖、未来之光网络创新大赛一等奖等。

知识产权

涉及专利数:授权发明专利10余项,受理发明专利近20项,在CCF-A/B会议或中科院一区/二区发表论文30余篇


应用领域

    十万卡规模AI训练集群;

    国产算力大规模训练集群;

    超节点 Scale-out网络互联。

    合作对接

    合作方式:专利许可、转让、作价入股等。

    联系方式:成果转化处 022-27400019   cgzh@tju.edu.cn

    意向征集

    咨询电话:成果转化处 022-27400019

    征集邮箱:cgzh@tju.edu.cn

    办公地址:天津大学北洋园校区1895行政楼B203

    信息下载:关注下方二维码获取征集信息表


    关闭

    校内链接: 天津大学 天津大学办公网

    校外链接: 国家自然科学基金委员会 中华人民共和国科学技术部 中华人民共和国教育部 中华人民共和国国家发展和改革委员会

    访问统计:

    天津大学科学技术发展研究院 地址:天津市津南区海河教育园区雅观路135号

    E-mail: kjc@tju.edu.cn

    版权所有:天津大学Copyright © 2010 - 2025 kj.tju.edu.cn