Moxin Voice
纯 Rust 实时翻译与语音合成
实时双语翻译、GPU 加速文本转语音与零样本声音克隆 — 全部在 Apple Silicon 本地运行。完全使用 Rust 构建,零 Python 依赖。
在 GitHub 上探索
Apache 2.0 开源协议。克隆、构建、本地运行。
github.com/moxin-org/Moxin-Voice2.3x
实时语音合成速度
9
预置声音 (4 种语言)
0s
声音克隆训练时间
基于 Apple M3 Max 测试 • Qwen3-TTS 1.7B 8-bit 量化
核心能力
实时翻译
双语实时字幕 — 即将亮相 GOSIM Paris 2026
实时双语字幕悬浮窗,可捕获任意音频源并生成实时翻译字幕。专为大型会议、商务会议和现场活动设计,消除语言障碍。
ASR 管道
基于 Qwen3-ASR-1.7B(8-bit 量化),通过 OminiX MLX 在 Metal GPU 上完全以 Rust 运行。VAD 分段确保准确的句子边界,支持实时流式输出。
翻译引擎
上下文感知的滚动翻译,输出连贯流畅。双语字幕对(如中文 ↔ 英文)在原生悬浮窗中渲染,始终置顶显示。
音频捕获
通过 macOS ScreenCaptureKit 直接捕获系统音频,无需虚拟音频驱动或内核扩展。同时支持麦克风输入用于面对面场景。
GOSIM Paris 2026
即将部署于 GOSIM Paris 2026 大会,为主题演讲和技术分享提供实时双语字幕,服务多语言观众。
文本转语音
9 种预置声音,4 种语言
基于 Qwen3-TTS(17 亿参数,8-bit 量化)的高质量神经语音合成,通过 OminiX MLX 在 Metal GPU 上运行。2.3 倍实时合成速度。支持中文、英文、日文和韩文。
零样本声音克隆
秒级克隆任意声音
录制或上传 5-30 秒参考音频,使用上下文学习(ICL Express 模式)即时克隆任意声音。使用 Qwen3-TTS-Base(1.7B, 8-bit)进行合成,Qwen3-ASR(1.7B, 8-bit)自动转录参考音频。无需训练、无需微调、无需上传云端。
基于 Moxin 技术栈
GPU 加速 UI 框架,纯 Rust
Rust ML 推理引擎,Apple Metal GPU
语音管道的数据流编排
语音合成模型,8-bit 量化
语音识别模型,8-bit 量化
跨平台 Rust 音频 I/O
对比分析
ElevenLabs 和 MiniMax 等领先 TTS 平台提供强大的云端 API。Moxin Voice 采用根本不同的方案:一切在本地运行,使用纯 Rust,在你自己的硬件上。
| Moxin Voice | ElevenLabs | MiniMax TTS | |
|---|---|---|---|
| 运行方式 | 100% 本地 | 云端 API | 云端 API |
| 开发语言 | 纯 Rust | Python (服务端) | Python (服务端) |
| 数据隐私 | 数据不出设备 | 上传至云端 | 上传至云端 |
| 实时翻译 | 内置,本地运行 | Dubbing Studio (云端) | 不支持 |
| 声音克隆 | 零样本,本地运行 | 即时 / 专业版 | API 调用 |
| 价格 | 免费开源 | $5-$330/月 | 按字符计费 |
| 延迟 | 即时(无网络) | 取决于网络 | 取决于网络 |
| 需要联网 | 不需要 | 需要 | 需要 |
| 源代码 | Apache 2.0 | 闭源 | 闭源 |
为什么选择纯 Rust
零 Python,零开销
无需 Python 运行时、virtualenv 或 pip 冲突。从 UI 到 GPU 推理的整个 TTS 管道编译为单一原生二进制文件。无 GIL,合成过程中无垃圾回收暂停。
GPU 边界的内存安全
Rust 的所有权模型通过 OminiX MLX 延伸到 Metal GPU 操作。缓冲区生命周期、张量形状和内核调度均在编译时检查,杜绝悬空指针和缓冲区溢出。
原生性能
Apple Silicon 上 2.3 倍实时合成速度。无解释器开销,无 Python 和 C 之间的 FFI 封送。音频管道从文本输入到扬声器输出全程原生速度运行。
单一二进制交付
cargo build --release 生成一个自包含可执行文件。无 Docker,无 conda 环境,无系统级库冲突。下载、构建、运行,就这么简单。
快速开始
需要 macOS 14.0+ (Sonoma) • Apple Silicon (M1/M2/M3/M4) • Rust 1.82+ • Dora CLI
# 安装 Dora CLI
cargo install dora-cli --locked
# 克隆仓库
git clone https://github.com/moxin-org/Moxin-Voice.git
cd Moxin-Voice
# 下载 TTS 模型(约 3.5 GB)
python3 scripts/download_models.py
# 构建并运行
cargo build --release
dora up && dora start apps/moxin-voice/dataflow/tts.yml