多层次协同的大模型训练推理系统设计：突破算力瓶颈的关键路径

显示全部楼层 · 发表于 2025-7-23 07:58:38

在人工智能领域，大模型的兴起带来了前所未有的机遇，但也伴随着巨大挑战。上海交通大学计算机科学与工程系教授陈全，长期深耕计算机体系结构、云原生计算、AIInfra相关研究，致力于攻克大模型训练与推理难题。
大模型时代，在大规模异构计算平台上实现高吞吐训练和低延迟推理，成为了亟待解决的关键问题。传统单一维度的优化策略，已无法满足复杂计算需求。陈全教授及其团队提出的多层次协同设计理念，从算子级、任务级以及集群级三个层面协同发力。
在算子级，团队着重优化细粒度计算通信重叠。大模型运算中，计算与通信频繁交替，通过巧妙设计，让计算和通信在微观层面同步进行，减少等待时间，极大提升了单个算子的运行效率。在任务级，创新模型复用高效调度机制，识别任务间关联，共享模型参数和中间结果，避免重复计算，显著提高资源利用率。在集群级，研发高效的LoRA及KV管理技术，实现多节点间算力的智能分配与负载均衡，确保整个集群高效运行。
陈全教授主持了国家优青、国家自然科学基金重点项目等多项重要课题，在ASPLOS、OSDI等领域内著名国际会议和期刊上发表学术论文一百余篇，研究成果荣获2023年CCF技术发明一等奖（排名第1）及国家技术发明二等奖。他的研究不仅在学术上极具前瞻性，更为大模型在产业中的实际应用提供了坚实的技术支撑。

多层次协同的大模型训练推理系统设计：突破算力瓶颈的关键路径-1.jpg

相信陈全教授在大模型训练推理系统设计上的创新成果，会给我们带来新的启发。而这些成果的更多细节和应用方向，会在2025人工智能与智算发展论坛上进行深入探讨。
2025人工智能与智算发展论坛由天罡智算联合复旦大学EMBA创投协会举办，将于2025年7月25日在上海举行。论坛以“绿算领航智序共生”为主题，汇聚了人工智能与智算领域的顶尖学者、行业领袖和企业精英，旨在共同探讨人工智能与智算领域的前沿技术、发展趋势以及产业应用，为推动行业的创新发展搭建交流合作平台。

多层次协同的大模型训练推理系统设计：突破算力瓶颈的关键路径-2.jpg

http://www.simu001.cn/x320342x1x1.html
最好的私募社区 | 第一私募论坛 | http://www.simu001.cn

		自动登录	找回密码
密码			立即注册

多层次协同的大模型训练推理系统设计：突破算力瓶颈的关键路径

精彩推荐