knox / LLaMA-Factory-2.md

Favorisieren 0

Fork 0

Zuletzt aktiv 1728786012

ZIP Herunterladen

LLaMA-Factory-2.md · 1.1 KiB · Markdown Orginalformat

Approach
Full-tuning
Freeze-tuning
LoRA
QLoRA


Pre-Training
✅
✅
✅
✅

Supervised Fine-Tuning
✅
✅
✅
✅

Reward Modeling
✅
✅
✅
✅

PPO Training
✅
✅
✅
✅

DPO Training
✅
✅
✅
✅

KTO Training
✅
✅
✅
✅

ORPO Training
✅
✅
✅
✅

SimPO Training
✅
✅
✅
✅

Approach	Full-tuning	Freeze-tuning	LoRA	QLoRA
Pre-Training	✅	✅	✅	✅
Supervised Fine-Tuning	✅	✅	✅	✅
Reward Modeling	✅	✅	✅	✅
PPO Training	✅	✅	✅	✅
DPO Training	✅	✅	✅	✅
KTO Training	✅	✅	✅	✅
ORPO Training	✅	✅	✅	✅
SimPO Training	✅	✅	✅	✅

Deutsch