qjt403 发表于 2025-7-23 07:58:38

多层次协同的大模型训练推理系统设计:突破算力瓶颈的关键路径

在人工智能领域,大模型的兴起带来了前所未有的机遇,但也伴随着巨大挑战。上海交通大学计算机科学与工程系教授陈全,长期深耕计算机体系结构、云原生计算、AIInfra相关研究,致力于攻克大模型训练与推理难题。
大模型时代,在大规模异构计算平台上实现高吞吐训练和低延迟推理,成为了亟待解决的关键问题。传统单一维度的优化策略,已无法满足复杂计算需求。陈全教授及其团队提出的多层次协同设计理念,从算子级、任务级以及集群级三个层面协同发力。
在算子级,团队着重优化细粒度计算通信重叠。大模型运算中,计算与通信频繁交替,通过巧妙设计,让计算和通信在微观层面同步进行,减少等待时间,极大提升了单个算子的运行效率。在任务级,创新模型复用高效调度机制,识别任务间关联,共享模型参数和中间结果,避免重复计算,显著提高资源利用率。在集群级,研发高效的LoRA及KV管理技术,实现多节点间算力的智能分配与负载均衡,确保整个集群高效运行。
陈全教授主持了国家优青、国家自然科学基金重点项目等多项重要课题,在ASPLOS、OSDI等领域内著名国际会议和期刊上发表学术论文一百余篇,研究成果荣获2023年CCF技术发明一等奖(排名第1)及国家技术发明二等奖。他的研究不仅在学术上极具前瞻性,更为大模型在产业中的实际应用提供了坚实的技术支撑。


相信陈全教授在大模型训练推理系统设计上的创新成果,会给我们带来新的启发。而这些成果的更多细节和应用方向,会在2025人工智能与智算发展论坛上进行深入探讨。
2025人工智能与智算发展论坛由天罡智算联合复旦大学EMBA创投协会举办,将于2025年7月25日在上海举行。论坛以“绿算领航智序共生”为主题,汇聚了人工智能与智算领域的顶尖学者、行业领袖和企业精英,旨在共同探讨人工智能与智算领域的前沿技术、发展趋势以及产业应用,为推动行业的创新发展搭建交流合作平台。



页: [1]
查看完整版本: 多层次协同的大模型训练推理系统设计:突破算力瓶颈的关键路径