Skip to content

Matador Training Engine

欢迎查阅具备优质性能的 LLM 大模型训练引擎手册,此引擎集合世界级最佳工业实践,让您的训练方式方法快人一步。

由于 LLM 大模型训练对算力,显存,网络要求的硬件能力要求很高,并不是所有的企业都拥有完备的硬件资源,我们由此推出单卡训练模型的加速引擎,以降低企业在模型过程中的成本,同时保障训练质量。

大模型单卡训练加速

引擎特性

  • 运用极致的低精度训练方式,极大降低训练过程中内存的消耗(可节省 70%),训练速度提升 2x 以上,精度不会有可感知的影响
  • 支持的训练阶段
    • SFT
      • QLoRA
      • LoRA
      • support rank stabilized LoRA
    • Pre-training
    • Continued Pretraining (区别于 post traning)
    • RL - Reward Modelling - DPO, ORPO & KTO
  • 模型保存格式
    • GGUF 各中量化版本
    • 16bit for VLLM
  • 支持从 Last Checkpoint 恢复训练
  • 模型数据模版支持,支持用同一份数据训练不同的基础模型,引擎会根据基础模型的数据要求,自动转化为正确的训练数据

引擎支持模型全景

ModelBaseInstruct
Llama 3.21B,3B,11B Vision,90B Vision1B,3B,11B Vision,90B Vision
Llama 3.18B,70B,405B8B,70B,405B
Phi-3.5mini
MistralNeMo 12B,Small 22B,7B (v0.3),7B (v0.2)NeMo 12B,Small 22B,7B (v0.3),7B (v0.2)
Qwen 2.50.5B,1.5B,3B,7B,14B,32B,72B0.5B,1.5B,3B,7B,14B,32B,72B
Qwen21.5B,7B,72B1.5B,7B,72B
TinyLlamaBaseInstruct
CodeLlama7B,13B,34B
Yi6B (v 1.5),34B34B

INFO

. LLama3.2 和 Qwen2.5 是推荐的 SFT 基础模型,模型文件可在 huggingface 上下载

. 以上模型均支持 16bit 或 4bit(bnb)格式,若模型没有 4bit 版本,可联系我们或自行转换模型

大模型多卡训练加速

Comming Soon

引擎使用

引擎已经集成进 DoDo 异构算力训推一体平台,随训练模版发布,请联系 Dryai 部署属于你的模版,体验保姆式训练过程。