Moxin Voice
纯 Rust 实时翻译与语音合成

实时双语翻译、GPU 加速文本转语音与零样本声音克隆 — 全部在 Apple Silicon 本地运行。完全使用 Rust 构建,零 Python 依赖。

现场演示 即将亮相 GOSIM Paris 2026 — 为大会演讲提供实时翻译

在 GitHub 上探索

Apache 2.0 开源协议。克隆、构建、本地运行。

github.com/moxin-org/Moxin-Voice

2.3x

实时语音合成速度

9

预置声音 (4 种语言)

0s

声音克隆训练时间

基于 Apple M3 Max 测试 • Qwen3-TTS 1.7B 8-bit 量化

核心能力

旗舰功能

实时翻译

双语实时字幕 — 即将亮相 GOSIM Paris 2026

实时双语字幕悬浮窗,可捕获任意音频源并生成实时翻译字幕。专为大型会议、商务会议和现场活动设计,消除语言障碍。

ASR 管道

基于 Qwen3-ASR-1.7B(8-bit 量化),通过 OminiX MLX 在 Metal GPU 上完全以 Rust 运行。VAD 分段确保准确的句子边界,支持实时流式输出。

翻译引擎

上下文感知的滚动翻译,输出连贯流畅。双语字幕对(如中文 ↔ 英文)在原生悬浮窗中渲染,始终置顶显示。

音频捕获

通过 macOS ScreenCaptureKit 直接捕获系统音频,无需虚拟音频驱动或内核扩展。同时支持麦克风输入用于面对面场景。

GOSIM Paris 2026

即将部署于 GOSIM Paris 2026 大会,为主题演讲和技术分享提供实时双语字幕,服务多语言观众。

Qwen3-ASR-1.7B ScreenCaptureKit 悬浮窗字幕 VAD 分段 OminiX MLX 零 Python

文本转语音

9 种预置声音,4 种语言

基于 Qwen3-TTS(17 亿参数,8-bit 量化)的高质量神经语音合成,通过 OminiX MLX 在 Metal GPU 上运行。2.3 倍实时合成速度。支持中文、英文、日文和韩文。

Qwen3-TTS-1.7B 中文 英文 日文 韩文 WAV 导出

零样本声音克隆

秒级克隆任意声音

录制或上传 5-30 秒参考音频,使用上下文学习(ICL Express 模式)即时克隆任意声音。使用 Qwen3-TTS-Base(1.7B, 8-bit)进行合成,Qwen3-ASR(1.7B, 8-bit)自动转录参考音频。无需训练、无需微调、无需上传云端。

5-30 秒参考音频 ICL Express 无需训练 完全本地

基于 Moxin 技术栈

Makepad

GPU 加速 UI 框架,纯 Rust

OminiX MLX

Rust ML 推理引擎,Apple Metal GPU

DORA

语音管道的数据流编排

Qwen3-TTS 1.7B

语音合成模型,8-bit 量化

Qwen3-ASR 1.7B

语音识别模型,8-bit 量化

CPAL

跨平台 Rust 音频 I/O

对比分析

ElevenLabs 和 MiniMax 等领先 TTS 平台提供强大的云端 API。Moxin Voice 采用根本不同的方案:一切在本地运行,使用纯 Rust,在你自己的硬件上。

Moxin Voice ElevenLabs MiniMax TTS
运行方式 100% 本地 云端 API 云端 API
开发语言 纯 Rust Python (服务端) Python (服务端)
数据隐私 数据不出设备 上传至云端 上传至云端
实时翻译 内置,本地运行 Dubbing Studio (云端) 不支持
声音克隆 零样本,本地运行 即时 / 专业版 API 调用
价格 免费开源 $5-$330/月 按字符计费
延迟 即时(无网络) 取决于网络 取决于网络
需要联网 不需要 需要 需要
源代码 Apache 2.0 闭源 闭源

为什么选择纯 Rust

零 Python,零开销

无需 Python 运行时、virtualenv 或 pip 冲突。从 UI 到 GPU 推理的整个 TTS 管道编译为单一原生二进制文件。无 GIL,合成过程中无垃圾回收暂停。

GPU 边界的内存安全

Rust 的所有权模型通过 OminiX MLX 延伸到 Metal GPU 操作。缓冲区生命周期、张量形状和内核调度均在编译时检查,杜绝悬空指针和缓冲区溢出。

原生性能

Apple Silicon 上 2.3 倍实时合成速度。无解释器开销,无 Python 和 C 之间的 FFI 封送。音频管道从文本输入到扬声器输出全程原生速度运行。

单一二进制交付

cargo build --release 生成一个自包含可执行文件。无 Docker,无 conda 环境,无系统级库冲突。下载、构建、运行,就这么简单。

快速开始

需要 macOS 14.0+ (Sonoma) • Apple Silicon (M1/M2/M3/M4) • Rust 1.82+ • Dora CLI

# 安装 Dora CLI

cargo install dora-cli --locked

# 克隆仓库

git clone https://github.com/moxin-org/Moxin-Voice.git

cd Moxin-Voice

# 下载 TTS 模型(约 3.5 GB)

python3 scripts/download_models.py

# 构建并运行

cargo build --release

dora up && dora start apps/moxin-voice/dataflow/tts.yml