可控开源社区

Omni-AI开源社区/omniinfer

同步镜像关注点赞复刻(Fork)

目录

bbking

add .gitee and .github folder for ISSUE/PR template and minor update on README

4天前18次提交

Omni-Infer：基于昇腾的超大规模MoE模型推理加速技术

中文 | View English

Omni-Infer是一套专为昇腾硬件平台定制的强大推理加速工具集，完全兼容业界目前主流的开源大模型推理框架（比如vLLM等），旨在提供高性能、企业级推理能力，具备原生支持且功能集持续扩展。

核心特性

企业级低延迟P/D调度：支持xPyD调度及大规模分布式PD部署的横向扩展，确保最低延迟。详情请参考全局代理设计。
请求级负载均衡：针对所有序列长度优化预填充（prefill）和解码（decode）阶段，实现最大吞吐量与低延迟。
优化的MoE专家部署：支持EP144/EP288配置的大规模混合专家（Mixture of Experts, MoE）模型。
MoE专家负载均衡：具备分层非均匀冗余和近实时动态专家放置功能，提升资源利用效率。详情请参考OmniPlacement设计。
高级注意力机制优化：专为LLM、MLLM和MoE模型定制，增强性能与可扩展性。

High-Level 架构图

快速开始

如需将Omni_Infer集成到项目中，请参考安装指南和文档获取详细的设置说明和API参考。

贡献指南

我们欢迎您为Omni_Infer贡献代码！请查看贡献指南，并通过Gitee Issues提交拉取请求或问题。

许可证

Omni_Infer基于MIT许可证发布。

关于

59.3 MB

邀请码

Gitlink（确实开源）

加入我们
官网邮箱：gitlink@ccf.org.cn

QQ群

QQ群

公众号

公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号