目录
目录README.md

Omni-Infer:基于昇腾的超大规模MoE模型推理加速技术

中文 | View English

Omni-Infer是一套专为昇腾硬件平台定制的强大推理加速工具集,完全兼容业界目前主流的开源大模型推理框架(比如vLLM等),旨在提供高性能、企业级推理能力,具备原生支持且功能集持续扩展。

核心特性

  • 企业级低延迟P/D调度:支持xPyD调度及大规模分布式PD部署的横向扩展,确保最低延迟。详情请参考全局代理设计
  • 请求级负载均衡:针对所有序列长度优化预填充(prefill)和解码(decode)阶段,实现最大吞吐量与低延迟。
  • 优化的MoE专家部署:支持EP144/EP288配置的大规模混合专家(Mixture of Experts, MoE)模型。
  • MoE专家负载均衡:具备分层非均匀冗余和近实时动态专家放置功能,提升资源利用效率。详情请参考OmniPlacement设计
  • 高级注意力机制优化:专为LLM、MLLM和MoE模型定制,增强性能与可扩展性。

High-Level 架构图

image

快速开始

如需将Omni_Infer集成到项目中,请参考安装指南文档获取详细的设置说明和API参考。

贡献指南

我们欢迎您为Omni_Infer贡献代码!请查看贡献指南,并通过Gitee Issues提交拉取请求或问题。

许可证

Omni_Infer基于MIT许可证发布。

关于
59.3 MB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号