技术与研究

Moxin-LLM 建立在完全透明的基础之上。我们遵循模型开放性框架 (MOF) 的“开放科学”原则，发布我们的训练代码、数据和检查点，以促进更具包容性和协作性的研究环境。

Moxin-LLM 概览

2T+

训练 Token 数量

32K

上下文长度

$160,000

训练成本

MOF 开放科学

开放性级别

核心架构

我们将 Mistral 架构扩展到 36 个 Transformer 块（从 32 个增加），以提高学习能力。这避免了与其他模型相关的限制性许可和数据污染问题。

通过使用滑动窗口注意力 (SWA) 和滚动缓冲区缓存，我们的模型支持 32K 的上下文长度，同时与标准方法相比，内存使用量减少约 8 倍。

独特的专家混合 (MoE) 结构在分词器层面提供了对多种语言（包括中文、日语和韩语，而不仅仅是拉丁字符）的增强高效支持。

数据与训练

我们的文本数据混合了 SlimPajama（一个经过清理、去重后的 RedPajama 版本）和 DCLM-BASELINE，后者使用质量过滤器仅保留网络文档中前 10% 的优质内容。

我们整合了 the-stack-dedup 数据集，其中包含来自 358 种编程语言的代码。这不仅支持代码生成，还提升了模型的整体逻辑推理能力。

模型经过三阶段训练过程：首先是 2K 上下文训练，然后扩展到 4K，最后是能力增强阶段，该阶段整合了来自评估基准的高质量数据。

从助手到推理者

第一步：有监督微调 (SFT)

基础模型首先使用 Tülu 3 开放框架，在多样化的数据混合上进行微调，以创建 Moxin-Instruct，一个有益无害的 AI 助手。

第二步：直接偏好优化 (DPO)

SFT 模型在偏好数据集上进一步通过 DPO 进行训练，使其更贴近用户意图和偏好的响应风格。

第三步：强化学习 (GRPO)

为了创建 Moxin-Reasoning，我们应用了组相对策略优化 (GRPO)，这是一种受 DeepSeek 启发的纯强化学习方法，旨在大幅增强链式思维 (Chain-of-Thought) 能力。

结果：7B 模型实现 SOTA 推理能力

Moxin-Reasoning 的出色表现证明，先进的强化学习技术对于较小的 7B 模型也极为有效，实现了以前只在更大模型中才能看到的成果。