Moxin LM
开源基础模型

从推理到语音，我们的模型专为下一代人机交互而设计。

访问 Moxin LM Hugging Face 页面

了解更多关于我们的基础模型和研究。

huggingface.co/moxin-org

开放创作高效部署语音

开放创作

Moxin-7B 系列是我们真正开放、SOTA 性能的 LLM 和 VLM。我们构建、微调并公开发布我们自己的模型，确保完全的可复现性和透明度。

Moxin-7B-LLM

我们的旗舰通用模型。针对指令跟随、编码和推理进行了微调。

7B

参数

32k

上下文

SOTA

性能

了解更多 GitHub 论文

Moxin-7B-VLM

能够高精度理解图像、图表和图解的视觉语言模型。

了解更多 GitHub 论文

高效部署

我们专注于极致量化，创建流行模型（如 DeepSeek 和 Kimi）的资源高效变体，以便在任何地方运行。我们释放可复现 AI 的力量 🚀。

Kimi K2 Thinking

Kimi K2 Thinking 模型的优化 GGUF 版本。

MiniMax M2

MiniMax M2 的高效 GGUF 量化版本。

Qwen3 Next 80B

Qwen3 Next 80B 的 A3B 指令 GGUF 版本。

Qwen3 235B

为部署量化的海量 235B 参数模型。

DeepSeek V3

为 Moxin 优化的最新 DeepSeek V3 模型。

GLM 4.6

通用语言模型 4.6 GGUF 量化。

DeepSeek R1

针对高效部署优化的推理模型。

语音

Moxin Voice 将类人语音合成、音色复刻与语音识别整合到一条完全本地化的工作流中，适合桌面端产品、边缘设备和研究实验。

NEW

本地运行 5-10 秒克隆 3-10 分钟训练 14+ 预置音色

Moxin Voice

完全在设备端运行的文本转语音与自动语音识别能力，无需云端 API，兼顾响应速度、隐私控制与部署灵活性。

类人文本转语音与自动语音识别全程本地运行

支持录音、试听与 WAV 导出，方便集成到产品演示和工作流中

提供 14+ 预置音色，并支持继续扩展与训练

适合桌面应用、边缘设备、Agent 语音界面与研究实验

语音样例

WAV

Moxin Voice Vivian 语音样例

零样本声音复刻

仅需 5-10 秒参考音频，即可快速生成可用音色，适合快速 Demo 与个性化语音体验。

少样本高保真训练

使用 3-10 分钟音频即可训练更稳定、更贴近目标音色的专属声音模型。

本地 TTS + ASR

文本转语音、自动语音识别、录音回放与音频导出都可以在本地链路中完成。

原生性能架构

基于 Rust、Makepad 与 GPT-SoVITS v2 构建，面向桌面端与边缘场景优化延迟与隐私。

使用 Moxin LM 构建

机器人与自动化

针对特定机器人指令和工业应用进行微调。

边缘 AI 解决方案

直接在设备上运行 AI，实现隐私优先、低延迟的应用程序。

研究平台

完全可复现和透明，是学术研究的理想选择。