目录
目录README.md

Omni-Infer:基于昇腾的超大规模MoE模型推理加速技术

中文 | View English

社区新闻(更多活动可参考社区活动日历) 🔥

  • [2025/08] Omni社区与LFAI&Data基金会亚太区域用户组,启动线上技术交流活动Omni-Talk,可参考社区活动的详细安排
  • [2025/08] 社区正在筹划与LFAI&Data基金会亚太区域用户组,以及腾讯公司团队一起,于8月30日下午在深圳举办vLLM Shenzhen Meetup,可移步访问活动详情
  • [2025/09] 社区将积极参与GOSIM中国峰会
往期活动

Omni-Infer是一套专为昇腾硬件平台定制的强大推理加速工具集,完全兼容业界目前主流的开源大模型推理框架(比如vLLM等),旨在提供高性能、企业级推理能力,具备原生支持且功能集持续扩展。

核心特性

  • 企业级低延迟P/D调度:支持xPyD调度及大规模分布式PD部署的横向扩展,确保最低延迟。详情请参考Global Proxy设计
  • 请求级负载均衡:针对所有序列长度优化预填充(prefill)和解码(decode)阶段,实现最大吞吐量与低延迟。
  • 优化的MoE专家部署:支持EP144/EP288配置的大规模混合专家(Mixture of Experts, MoE)模型。
  • MoE专家负载均衡:具备分层非均匀冗余和近实时动态专家放置功能,提升资源利用效率。详情请参考OmniPlacement设计
  • 高级注意力机制优化:专为LLM、MLLM和MoE模型定制,增强性能与可扩展性。

开源社区

有关Omni-Infer社区运作、活动、治理相关的信息,请访问我们的社区运作仓库

High-Level 架构图

image

快速开始

PD分离快速部署示例请参考指南。如需将Omni_Infer集成到项目中,请参考安装指南文档获取详细的设置说明和API参考。

贡献指南

我们欢迎您为Omni_Infer贡献代码!请查看贡献指南,并通过Gitee Issues提交拉取请求或问题。

许可证

Omni_Infer基于MIT许可证发布。

关于
109.5 MB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号