我们将 Mistral 架构扩展到 36 个 Transformer 块(从 32 个增加),以提高学习能力。这避免了与其他模型相关的限制性许可和数据污染问题。
通过使用滑动窗口注意力 (SWA) 和滚动缓冲区缓存,我们的模型支持 32K 的上下文长度,同时与标准方法相比,内存使用量减少约 8 倍。
独特的专家混合 (MoE) 结构在分词器层面提供了对多种语言(包括中文、日语和韩语,而不仅仅是拉丁字符)的增强高效支持。
数据与训练
我们的文本数据混合了 SlimPajama(一个经过清理、去重后的 RedPajama 版本)和 DCLM-BASELINE,后者使用质量过滤器仅保留网络文档中前 10% 的优质内容。
我们整合了 the-stack-dedup 数据集,其中包含来自 358 种编程语言的代码。这不仅支持代码生成,还提升了模型的整体逻辑推理能力。
模型经过三阶段训练过程:首先是 2K 上下文训练,然后扩展到 4K,最后是能力增强阶段,该阶段整合了来自评估基准的高质量数据。
从助手到推理者
第一步:有监督微调 (SFT)
基础模型首先使用 Tülu 3 开放框架,在多样化的数据混合上进行微调,以创建 Moxin-Instruct,一个有益无害的 AI 助手。
第二步:直接偏好优化 (DPO)
SFT 模型在偏好数据集上进一步通过 DPO 进行训练,使其更贴近用户意图和偏好的响应风格。
第三步:强化学习 (GRPO)
为了创建 Moxin-Reasoning,我们应用了组相对策略优化 (GRPO),这是一种受 DeepSeek 启发的纯强化学习方法,旨在大幅增强链式思维 (Chain-of-Thought) 能力。
结果:7B 模型实现 SOTA 推理能力
Moxin-Reasoning 的出色表现证明,先进的强化学习技术对于较小的 7B 模型也极为有效,实现了以前只在更大模型中才能看到的成果。