赛题题目：面向智能体的内存管理系统设计与实现（高校赛题）

赛题说明：

随着基于大语言模型的智能体系统不断发展，其推理范式已由传统的单轮生成扩展为涵盖规划、执行与反思的长生命周期复杂过程。在这一过程中，智能体需要进行多轮动态交互，并频繁调用工具与外部环境，导致推理过程中的上下文持续增长与反复重构。相较于传统推理框架（如 vLLM）主要面向线性序列生成的场景，智能体推理在内存使用上呈现出显著不同的特征，包括 KV Cache 持续累积、上下文内容高度冗余、推理路径可能出现分支以及工具调用带来的大规模中间数据等问题。这些特性使得支撑智能体推理的内存管理系统面临内存生命周期长、结构动态和复用性要求高等问题和需求。在资源受限或多任务并发环境下，低效的内存管理策略将显著增加显存占用，导致推理延迟上升甚至任务失败。本赛题要求参赛者基于开源技术栈，实现一个面向智能体推理过程的内存管理系统，在保证推理效果的前提下，通过对 KV Cache、上下文结构及显存分配机制的系统性优化，有效降低内存占用并提升整体推理效率。

赛题要求：

完成面向智能体的内存管理优化设计与实现，基于 openEuler、openKylin、OpenHarmony 等至少一个国内主流开源操作系统开发，鼓励在更多Linux发行版上编译、运行和测试。参赛者可以选择在现有推理框架（如 vLLM 或 llama.cpp）基础上进行扩展，实现对典型智能体工作流（如多轮对话、工具调用或多阶段决策过程）的支持。在实现过程中，需要保证优化前后使用相同的硬件配置，并基于开源大模型（如 Qwen、MiniCPM 等）构建可复现的 Benchmark 测试方案，对优化效果进行系统评估。具体优化推荐但不限于以下方向：

KV Cache 生命周期管理：设计面向长生命周期推理的缓存管理策略，实现 KV 的复用、淘汰或分层存储，以控制显存增长，并支持不同生命周期任务下的动态资源回收与重分配。。
分支推理内存共享：针对智能体多路径决策过程，设计 KV Cache 的共享与 Copy-on-Write 机制，避免分支带来的内存爆炸。
Prompt 与上下文压缩：对 system prompt、工具描述等内容进行去重与精简，消除冗余信息，从而降低上下文占用并提升整体效率。
工具调用数据优化：对工具调用过程中产生的大规模中间数据进行结构化存储或按需加载，避免其完全进入 KV Cache。
分层内存与异构存储优化：探索GPU显存、主存与外部存储之间的分层内存体系，实现KV Cache与上下文数据的冷热分离、动态迁移与按需加载。
异构AI加速硬件支持：鼓励适配CUDA、DTK、CANN等异构计算平台，以及国产AI加速硬件与国产化算力环境，提升系统在异构GPU/NPU场景下的兼容性与资源利用效率。
评分细则（明确评审角度、标准和分值范围）：

功能完整性（30%）：