
使用与文档
开始使用 Moxin-LLM。查找推理运行、部署优化以及为您的应用程序微调模型的指南。
快速入门
几分钟内运行 Moxin-LLM
使用 Hugging Face `transformers` 库快速启动并运行。此示例使用 `Moxin-7B-Instruct` 模型。
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "moxin-org/moxin-instruct-7b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
# Format the prompt for instruction-following
prompt = "Can you explain the concept of regularization in machine learning?"
formatted_prompt = f"<|user|>\n{prompt}<|end|>\n<|assistant|>"
inputs = tokenizer(formatted_prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
模型指南
为获得最佳结果进行提示
使用 Moxin-7B-Instruct
指令模型经过微调,适用于对话和遵循命令。为获得最佳结果,请将您的提示组织为对话形式。上方示例展示了标准格式。
使用 Moxin-7B-Reasoning
该模型擅长处理数学和逻辑等链式思维 (CoT) 任务。它通过组相对策略优化 (GRPO) 得到增强。要充分发挥其潜力,请要求它“逐步思考”或“展示其工作”。
部署与优化
边缘设备上的高性能表现
针对设备端AI优化
Moxin-LLM 专为在个人电脑和手机等边缘设备上高效运行而设计。这一重点解决了隐私和低延迟应用的需求。
OminiX 引擎
为获得最佳性能,我们建议使用自主研发的 OminiX 推理和微调引擎。该引擎针对包括国产 NPU 在内的各种边缘硬件进行了优化。
经验证的效率
我们的优化技术强大到足以在单台笔记本电脑上部署一个 235B 参数模型,并实现每秒约 14 个 token 的速度。
微调 Moxin-LLM
利用 Moxin 的完全开放性来创建您自己的专业模型。我们训练数据和脚本的透明性使微调过程更高效、更有效。
第一步:从 Moxin-7B-Base 开始
`Moxin-7B-Base` 模型是任何自定义微调项目的理想起点。
第二步:准备您的自定义数据集
收集并格式化您的数据,以用于特定任务,例如机器人指令、专业翻译术语或任何其他领域特定知识。
第三步:运行微调过程
使用标准开源训练脚本在您的数据集上微调模型。我们的开放方法确保您拥有完全的控制和可见性。
第四步:部署您的自定义模型
训练完成后,您的专业模型即可部署,为您的特定应用程序带来强大、定制化的AI。