目录

赛题题目:面向智能体的内存管理系统设计与实现(高校赛题)

赛题说明:

随着基于大语言模型的智能体系统不断发展,其推理范式已由传统的单轮生成扩展为涵盖规划、执行与反思的长生命周期复杂过程。在这一过程中,智能体需要进行多轮动态交互,并频繁调用工具与外部环境,导致推理过程中的上下文持续增长与反复重构。相较于传统推理框架(如 vLLM)主要面向线性序列生成的场景,智能体推理在内存使用上呈现出显著不同的特征,包括 KV Cache 持续累积、上下文内容高度冗余、推理路径可能出现分支以及工具调用带来的大规模中间数据等问题。这些特性使得支撑智能体推理的内存管理系统面临内存生命周期长、结构动态和复用性要求高等问题和需求。在资源受限或多任务并发环境下,低效的内存管理策略将显著增加显存占用,导致推理延迟上升甚至任务失败。本赛题要求参赛者基于开源技术栈,实现一个面向智能体推理过程的内存管理系统,在保证推理效果的前提下,通过对 KV Cache、上下文结构及显存分配机制的系统性优化,有效降低内存占用并提升整体推理效率。

赛题要求:

完成面向智能体的内存管理优化设计与实现,基于 openEuler、openKylin、OpenHarmony 等至少一个国内主流开源操作系统开发,鼓励在更多Linux发行版上编译、运行和测试。参赛者可以选择在现有推理框架(如 vLLM 或 llama.cpp)基础上进行扩展,实现对典型智能体工作流(如多轮对话、工具调用或多阶段决策过程)的支持。在实现过程中,需要保证优化前后使用相同的硬件配置,并基于开源大模型(如 Qwen、MiniCPM 等)构建可复现的 Benchmark 测试方案,对优化效果进行系统评估。具体优化推荐但不限于以下方向:

  • KV Cache 生命周期管理:设计面向长生命周期推理的缓存管理策略,实现 KV 的复用、淘汰或分层存储,以控制显存增长,并支持不同生命周期任务下的动态资源回收与重分配。。
  • 分支推理内存共享:针对智能体多路径决策过程,设计 KV Cache 的共享与 Copy-on-Write 机制,避免分支带来的内存爆炸。
  • Prompt 与上下文压缩:对 system prompt、工具描述等内容进行去重与精简,消除冗余信息,从而降低上下文占用并提升整体效率。
  • 工具调用数据优化:对工具调用过程中产生的大规模中间数据进行结构化存储或按需加载,避免其完全进入 KV Cache。
  • 分层内存与异构存储优化:探索GPU显存、主存与外部存储之间的分层内存体系,实现KV Cache与上下文数据的冷热分离、动态迁移与按需加载。
  • 异构AI加速硬件支持:鼓励适配CUDA、DTK、CANN等异构计算平台,以及国产AI加速硬件与国产化算力环境,提升系统在异构GPU/NPU场景下的兼容性与资源利用效率。

    评分细则(明确评审角度、标准和分值范围):

功能完整性(30%):

  • 完整实现一个支持智能体推理流程的系统并集成内存优化机制(60分)
  • 支持多模型或多任务推理场景(40分)

应用效果(40%):

  • 在保证任务成功率基本不下降的前提下,实现显存占用的有效降低与推理延迟的优化(40分)
  • 能够针对智能体长生命周期推理中的典型问题提供有效解决方案(40分)
  • 优化方法能够适配不同模型规模或不同推理框架(20分)

代码规范性(20%):

  • 代码结构清晰、符合开源规范(80分)
  • 具备良好的可复现性与测试覆盖(20分)

文档质量(10%):

  • 包含完整的技术方案说明、系统设计与实现细节、部署指南及测试报告(50分)
  • 文档逻辑清晰、格式规范(50分)

赛题联系人:

张老师 jfzhang@nudt.edu.cn

参考资料:

关于
28.0 KB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

版权所有:中国计算机学会技术支持:开源发展技术委员会
京ICP备13000930号-9 京公网安备 11010802047560号