华为DCP技术闪耀全球网络通信顶会ACM SIGCOMM!破解大规模AI集群网络难题,研究成果成为亚洲唯一获奖的论文。
那么它将对我们的生活有什么样的改变?又有着什么样的含义?
上周,一场汇聚全球网络技术精英的盛会在葡萄牙圆满落幕——第39届ACM SIGCOMM大会落下帷幕。
作为计算机网络领域的“顶流盛会”,这里从不缺前沿突破,每年都吸引着谷歌、微软、华为等全球顶尖科技企业和高校的目光,能在这里崭露头角的成果,无一不是兼具学术深度与产业价值的“硬通货”。
今年大会的竞争格外激烈,463篇投稿最终仅75篇入选,16.2%的接收率让每一篇录用论文都含金量十足。
更令人瞩目的是,全球仅3篇论文斩获奖项,而华为网络技术实验室与香港科技大学iSING Lab合作研发的新型RDMA传输架构DCP,凭借对大规模AI集群网络难题的突破性解决,成功拿下Best Student Paper Award (Honorable Mention),成为本届大会亚洲地域唯一的获奖论文。
这不是华为第一次在国际顶级技术舞台发光,此前其网络技术实验室还曾拿下Hot Interconnects 2024最佳学术论文奖、FSE 2024杰出论文奖,近期发布的UB-Mesh超节点网络架构更是在Hot Chips 2025引发业界广泛关注,持续的技术输出背后,是华为在网络领域数十年如一日的深耕。
要理解DCP技术的价值,得先看清当下AI集群网络面临的“成长烦恼”。随着AI大模型从百亿参数向万亿参数跨越,算力需求呈指数级增长,集群网络的规模也跟着“膨胀”——以前一个集群可能在一栋楼里就能装下,现在得拉到园区内多栋楼部署,受物理走线、部署策略限制,最大通信距离能达到2km到10km。
要是想进一步提升算力,供电、散热又会成为新瓶颈,只能靠多集群联合训练,跨AZ场景下的通信距离甚至能突破百公里。
可现有的智算网络技术,大多还是沿用传统数据中心那套方案,主流的是基于PFC流控的无损RDMA网络,这套技术在小规模网络里还算好用,但网络规模一扩大,问题就全暴露了。
PFC容易引发“头阻”,就像高速公路上前面车一堵,后面所有车都动不了,还可能出现死锁,整个网络直接“卡壳”,运维难度也直线上升,工程师排查问题时常常头疼不已。
更麻烦的是,现在交换机的交换容量越做越大,但交换芯片的Buffer增长速度却没跟上,这套无损RDMA路线很快就要面临Buffer不足的“存储危机”。
业界也没闲着,一直在探索有损RDMA路线,比如在RDMA网卡(RNIC)里加选择性重传机制,可这条路也不好走,容易遇到ECMP冲突,就像多条小路交汇时车辆抢道,还会出现RTO超时,数据传输半天没回应;更关键的是,它和多路径、逐包均衡这些能提升网络效率的技术兼容性太差,根本没法协同工作。
就在大家为这些难题犯愁时,华为和香港科技大学合作提出的DCP(Data Control Partitioning)数控分离技术,给出了全新的解决方案。
这套技术的核心思路很巧妙,就是把网络传输里的控制信息和数据信息“分开管”,给它们制定不同的传输策略——数据信息允许“有损传输”,不用像以前那样追求100%无丢失;但控制信息必须“无损传输”,确保指令传递准确无误。
具体来说,DCP是一套交换机和RNIC联合设计的传输架构,包含DCP-Switch和DCP-RNIC两个关键部分,还明确划分了数据平面(DP)和控制平面(CP):数据平面负责传输实际的有效载荷,控制平面则专门传输报文头部。
和传统无损RDMA网络用PFC同时保证两个平面无损不同,DCP-Switch加了个“Packet Trimming”功能,一旦网络出现丢包,它会把丢失报文的头部单独封装成Header-Only(HO)报文,快速传给接收端。
同时,DCP-Switch还用了加权轮询(WRR)调度器,优先处理控制队列里的信息,确保控制平面传输不会出问题,而数据平面就算有丢包也不影响整体运行。
DCP-RNIC也有不少“黑科技”,它充分利用控制平面无损的特性,大幅提升了可靠性,比如“Precise and Fast HO-based Retransmission”功能,发送方能根据HO包里携带的PSN信息,精准定位丢失的数据包,快速完成重传,不用像以前那样盲目重试。
“Order-tolerant Packet Reception”功能更实用,接收端的RNIC能直接把不管是有序还是乱序的数据包,写入对应的应用程序内存地址,省去了专门的重排序缓冲区,既节省了资源又提高了效率。
值得一提的是,DCP技术还只是华为AI-Native Transport(ANT)技术体系里的一部分。华为网络技术实验室正在研发的ANT技术,整合了逐包均衡/多路径、算效优先调度、容损传输等一系列特性,目标就是为AI智算网络打造高吞吐、高算效、高可扩展的传输能力。
这次DCP技术在ACM SIGCOMM获奖,不仅证明了它在解决大规模AI集群网络可扩展性问题上的价值,也让业界看到了ANT技术体系的潜力。
随着DCP技术的进一步落地,未来大规模AI集群网络可能不再受限于距离和规模,AI算力的释放也将迎来新的突破,而这或许只是华为在网络技术领域持续创新的一个开始。
更新时间:2025-09-20
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号