Moxin Voice
纯 Rust 实时翻译与语音合成

实时双语翻译、GPU 加速文本转语音与零样本声音克隆 — 全部在 Apple Silicon 本地运行。完全使用 Rust 构建，零 Python 依赖。

现场演示即将亮相 GOSIM Paris 2026 — 为大会演讲提供实时翻译

在 GitHub 上探索

Apache 2.0 开源协议。克隆、构建、本地运行。

github.com/moxin-org/Moxin-Voice

2.3x

实时语音合成速度

预置声音 (4 种语言)

声音克隆训练时间

基于 Apple M3 Max 测试 • Qwen3-TTS 1.7B 8-bit 量化

核心能力

旗舰功能

实时翻译

双语实时字幕 — 即将亮相 GOSIM Paris 2026

实时双语字幕悬浮窗，可捕获任意音频源并生成实时翻译字幕。专为大型会议、商务会议和现场活动设计，消除语言障碍。

ASR 管道

基于 Qwen3-ASR-1.7B（8-bit 量化），通过 OminiX MLX 在 Metal GPU 上完全以 Rust 运行。VAD 分段确保准确的句子边界，支持实时流式输出。

翻译引擎

上下文感知的滚动翻译，输出连贯流畅。双语字幕对（如中文 ↔ 英文）在原生悬浮窗中渲染，始终置顶显示。

音频捕获

通过 macOS ScreenCaptureKit 直接捕获系统音频，无需虚拟音频驱动或内核扩展。同时支持麦克风输入用于面对面场景。

GOSIM Paris 2026

即将部署于 GOSIM Paris 2026 大会，为主题演讲和技术分享提供实时双语字幕，服务多语言观众。

Qwen3-ASR-1.7B ScreenCaptureKit 悬浮窗字幕 VAD 分段 OminiX MLX 零 Python

文本转语音

9 种预置声音，4 种语言

基于 Qwen3-TTS（17 亿参数，8-bit 量化）的高质量神经语音合成，通过 OminiX MLX 在 Metal GPU 上运行。2.3 倍实时合成速度。支持中文、英文、日文和韩文。

Qwen3-TTS-1.7B 中文英文日文韩文 WAV 导出

零样本声音克隆

秒级克隆任意声音

录制或上传 5-30 秒参考音频，使用上下文学习（ICL Express 模式）即时克隆任意声音。使用 Qwen3-TTS-Base（1.7B, 8-bit）进行合成，Qwen3-ASR（1.7B, 8-bit）自动转录参考音频。无需训练、无需微调、无需上传云端。

5-30 秒参考音频 ICL Express 无需训练完全本地

基于 Moxin 技术栈

Makepad

GPU 加速 UI 框架，纯 Rust

OminiX MLX

Rust ML 推理引擎，Apple Metal GPU

DORA

语音管道的数据流编排

Qwen3-TTS 1.7B

语音合成模型，8-bit 量化

Qwen3-ASR 1.7B

语音识别模型，8-bit 量化

CPAL

跨平台 Rust 音频 I/O

对比分析

ElevenLabs 和 MiniMax 等领先 TTS 平台提供强大的云端 API。Moxin Voice 采用根本不同的方案：一切在本地运行，使用纯 Rust，在你自己的硬件上。

	Moxin Voice	ElevenLabs	MiniMax TTS
运行方式	100% 本地	云端 API	云端 API
开发语言	纯 Rust	Python (服务端)	Python (服务端)
数据隐私	数据不出设备	上传至云端	上传至云端
实时翻译	内置，本地运行	Dubbing Studio (云端)	不支持
声音克隆	零样本，本地运行	即时 / 专业版	API 调用
价格	免费开源	$5-$330/月	按字符计费
延迟	即时（无网络）	取决于网络	取决于网络
需要联网	不需要	需要	需要
源代码	Apache 2.0	闭源	闭源

为什么选择纯 Rust

零 Python，零开销

无需 Python 运行时、virtualenv 或 pip 冲突。从 UI 到 GPU 推理的整个 TTS 管道编译为单一原生二进制文件。无 GIL，合成过程中无垃圾回收暂停。

GPU 边界的内存安全

Rust 的所有权模型通过 OminiX MLX 延伸到 Metal GPU 操作。缓冲区生命周期、张量形状和内核调度均在编译时检查，杜绝悬空指针和缓冲区溢出。

原生性能

Apple Silicon 上 2.3 倍实时合成速度。无解释器开销，无 Python 和 C 之间的 FFI 封送。音频管道从文本输入到扬声器输出全程原生速度运行。

单一二进制交付

cargo build --release 生成一个自包含可执行文件。无 Docker，无 conda 环境，无系统级库冲突。下载、构建、运行，就这么简单。

快速开始

需要 macOS 14.0+ (Sonoma) • Apple Silicon (M1/M2/M3/M4) • Rust 1.82+ • Dora CLI

# 安装 Dora CLI

cargo install dora-cli --locked

# 克隆仓库

git clone https://github.com/moxin-org/Moxin-Voice.git

cd Moxin-Voice

# 下载 TTS 模型（约 3.5 GB）

python3 scripts/download_models.py

# 构建并运行

cargo build --release

dora up && dora start apps/moxin-voice/dataflow/tts.yml

Moxin Voice 纯 Rust 实时翻译与语音合成