OminiX
本地全栈纯 Rust AI 平台

在 Apple Silicon 设备端运行多模态 AI。大语言模型、图像生成、语音克隆和语音识别 — 纯 Rust 实现,零 Python 依赖。

在 GitHub 上探索

浏览代码仓库,参与贡献,使用 OminiX 构建应用。

github.com/OminiX-ai

45 tok/s

LLM 推理 (Qwen3-4B)

18x

实时语音识别速度

4x

实时语音合成速度

基于 Apple M3 Max (128GB) 测试

OminiX 技术栈

OminiX-MLX

推理引擎

Apple MLX 的安全 Rust 绑定,包含 14 个模型 crate。通过 Metal 进行 GPU 加速,统一内存架构实现零拷贝 CPU-GPU 数据传输。支持 LLM、ASR、TTS 和图像生成。

Qwen2/3 GLM-4 Mixtral Mistral Paraformer GPT-SoVITS FLUX.2-klein Z-Image
查看仓库 →

OminiX-API

兼容 OpenAI 的 API 服务器

OpenAI API 的本地替代方案,运行在你的 Mac 上。支持动态模型加载、WebSocket TTS 流式传输和自动模型管理,无需重启。

/v1/chat/completions /v1/audio/transcriptions /v1/images/generations /ws/v1/tts
查看仓库 →

OminiX Studio

原生桌面应用

基于 Makepad 构建的一站式桌面应用。聊天、生成图像、克隆语音、转录语音 — 全部在一个原生界面中完成。支持连接本地或云端后端。

多模型对话 图像生成 语音输入输出 MCP 工具
查看仓库 →

为什么选择 OminiX

纯 Rust,零 Python

整个技术栈全部使用 Rust 编写。无需 Python 运行时,告别依赖地狱。通过 cargo build --release 编译为单个二进制文件。

Metal GPU 加速

统一内存实现零拷贝 CPU-GPU 数据传输。惰性求值实现内核融合,在 Apple Silicon 上获得最大吞吐量。

多模态端侧推理

大语言模型、图像生成 (FLUX, Z-Image)、语音克隆 (GPT-SoVITS) 和语音识别 (Paraformer) — 全部在本地运行。

全栈内存安全

Rust 的所有权模型扩展到 GPU 操作。从推理内核到 HTTP 服务器的全栈内存安全,从根本上消除整类 bug。

兼容 OpenAI

OpenAI 端点的直接替代方案。任何使用 OpenAI API 的应用都可以直接与 OminiX 配合使用 — 只需将地址指向 localhost。

开源

MIT 和 Apache 2.0 双重许可。隶属于 Moxin 开源 AI 生态系统。完全透明,社区驱动。

快速开始

系统要求:macOS 14.0+ (Sonoma) • Apple Silicon (M1/M2/M3/M4) • Rust 1.82+ • Xcode 命令行工具

# 克隆并构建 API 服务器

git clone https://github.com/OminiX-ai/OminiX-API.git

cd OminiX-API && cargo build --release

# 运行语言模型

LLM_MODEL=mlx-community/Qwen3-4B-bf16 cargo run --release

# 运行全部功能

PORT=8080 LLM_MODEL=mlx-community/Qwen3-4B-bf16 \

  ASR_MODEL_DIR=./models/paraformer \

  TTS_REF_AUDIO=./audio/reference.wav \

  IMAGE_MODEL=zimage cargo run --release