成果推介|天津大学高价值科技成果系列之：李克秋、李文信团队-凌波RDMA网卡

日期：2025-12-30 作者：浏览：

视频链接：https://mp.weixin.qq.com/s/of3smhNUzhMvd8jke54MSw

所属领域

AI集群基础设施、超大规模集群网络系统

成果介绍

行业痛点

真正决定下一代算力格局的，不是单卡性能或节点内互联，而是十万卡以上规模的 AI 集群是否真正具备可行性。随着 AGI 与超大规模多模态模型成为主流，模型参数加速迈向十万亿级，训练范式从“堆算力”转向“极致并行协同”；与此同时，商业竞争本质上是与时间赛跑，头部厂商必须在三个月内完成模型训练、迭代与部署，算力规模直接决定是否具备入场资格；在更高层面，十万卡级 AI 集群已逐步成为支撑国家科技创新、产业升级与安全能力的重要基础设施。然而，当前行业的技术体系仍主要围绕千卡、万卡规模设计，核心瓶颈并不在节点内，而在节点之间：节点内 GPU 通过 NVLink、UB 等私有 Scale-up 网络已实现 Tb 级带宽，而跨节点通信仍依赖通用 Scale-out 网络，经由 AI 网卡与多跳交换后，带宽折损、拥塞放大和连接规模失控问题在十万卡场景下被系统性放大。结果是，算力规模可以堆出来，但有效算力难以释放，训练效率随规模增长反而下降。因此，十万卡集群的成败，本质取决于 Scale-out 网络能否同时实现超高有效带宽、万级并发连接能力，并在兼容异构算力的前提下保持可接受的成本——这已经不再是渐进优化问题，而是当前 AI 基础设施体系面临的结构性痛点。

解决方案

凌波智芯基于原生 RoCE 重新定义网卡架构，针对十万卡级集群在 Scale-out 场景下面临的带宽利用率低、并发连接受限和重传效率不足等核心痛点，提出无链接的设计思路。不同于英伟达将 QP 与链路一对一绑定的全链接架构，我们用高效队列调度取代“专链路”模型，使 QP 只负责数据生成与投递，由网卡内部的调度中心统一完成多路径与带宽分配，从根本上释放并发能力。在此架构上，我们进一步构建三项核心能力：HP4流控技术在不改动交换机的前提下，将流量以临界速率直接注入网络，在十万卡集群 All-Reduce中有效带宽提升 6.4 倍、完成时间降低 59%；QPress 并发连接通过硬件压缩与调度补位机制，将并发 QP 数量提升 5 倍、时延降低 62.5%；SSR 极速重传依托无链接设计实现队列级硬件重传，重传时延降低 96%、状态存储需求下降 80%。整体上，凌波智芯以架构级创新补齐 Scale-out 网络短板，为十万卡级 AI 集群提供可落地、可扩展的互联底座。

主要指标

团队介绍

李文信教授带领的智算网络团队，聚焦智算中心大规模集群的网络通信瓶颈，在拥塞控制、流调度、高并发Roce协议栈、网卡硬件架构设计、负载均衡、网内计算等领域技术积累深厚，完成自研RDMA网卡架构的设计研发。目前相关技术以天津大学为第一单位首次突破网络系统最顶级会议SIGCOMM、NSDI，并与多家单位展开合作研发，获海棠杯天津大学校友创新创业大赛一等奖、未来之光网络创新大赛一等奖等。

知识产权

涉及专利数：授权发明专利10余项，受理发明专利近20项，在CCF-A/B会议或中科院一区/二区发表论文30余篇。

应用领域

十万卡规模AI训练集群；

国产算力大规模训练集群；

超节点 Scale-out网络互联。

合作对接

合作方式：专利许可、转让、作价入股等。

联系方式：成果转化处 022-27400019 cgzh@tju.edu.cn

意向征集

咨询电话：成果转化处 022-27400019

征集邮箱：cgzh@tju.edu.cn

办公地址：天津大学北洋园校区1895行政楼B203

信息下载：关注下方二维码获取征集信息表

【关闭】