使用与文档

开始使用 Moxin-LLM。查找推理运行、部署优化以及为您的应用程序微调模型的指南。

快速入门

几分钟内运行 Moxin-LLM

使用 Hugging Face `transformers` 库快速启动并运行。此示例使用 `Moxin-7B-Instruct` 模型。


from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "moxin-org/moxin-instruct-7b"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# Format the prompt for instruction-following
prompt = "Can you explain the concept of regularization in machine learning?"
formatted_prompt = f"<|user|>\n{prompt}<|end|>\n<|assistant|>"

inputs = tokenizer(formatted_prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=200)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

模型指南

为获得最佳结果进行提示

使用 Moxin-7B-Instruct

指令模型经过微调，适用于对话和遵循命令。为获得最佳结果，请将您的提示组织为对话形式。上方示例展示了标准格式。

使用 Moxin-7B-Reasoning

该模型擅长处理数学和逻辑等链式思维 (CoT) 任务。它通过组相对策略优化 (GRPO) 得到增强。要充分发挥其潜力，请要求它“逐步思考”或“展示其工作”。

部署与优化

边缘设备上的高性能表现

针对设备端AI优化

Moxin-LLM 专为在个人电脑和手机等边缘设备上高效运行而设计。这一重点解决了隐私和低延迟应用的需求。

OminiX 引擎

为获得最佳性能，我们建议使用自主研发的 OminiX 推理和微调引擎。该引擎针对包括国产 NPU 在内的各种边缘硬件进行了优化。

经验证的效率

我们的优化技术强大到足以在单台笔记本电脑上部署一个 235B 参数模型，并实现每秒约 14 个 token 的速度。

微调 Moxin-LLM

利用 Moxin 的完全开放性来创建您自己的专业模型。我们训练数据和脚本的透明性使微调过程更高效、更有效。

第一步：从 Moxin-7B-Base 开始

`Moxin-7B-Base` 模型是任何自定义微调项目的理想起点。

第二步：准备您的自定义数据集

收集并格式化您的数据，以用于特定任务，例如机器人指令、专业翻译术语或任何其他领域特定知识。

第三步：运行微调过程

使用标准开源训练脚本在您的数据集上微调模型。我们的开放方法确保您拥有完全的控制和可见性。

第四步：部署您的自定义模型

训练完成后，您的专业模型即可部署，为您的特定应用程序带来强大、定制化的AI。