Revision of LLaMA-Factory-1.md

knox revised this gist 1728785872. Go to revision

1 file changed, 30 insertions

LLaMA-Factory-1.md(file created)

		@@ -0,0 +1,30 @@
1	+	\| Model \| Model size \| Template \|
2	+	\| ----------------------------------------------------------------- \| -------------------------------- \| ---------------- \|
3	+	\| [Baichuan 2](https://huggingface.co/baichuan-inc) \| 7B/13B \| baichuan2 \|
4	+	\| [BLOOM/BLOOMZ](https://huggingface.co/bigscience) \| 560M/1.1B/1.7B/3B/7.1B/176B \| - \|
5	+	\| [ChatGLM3](https://huggingface.co/THUDM) \| 6B \| chatglm3 \|
6	+	\| [Command R](https://huggingface.co/CohereForAI) \| 35B/104B \| cohere \|
7	+	\| [DeepSeek (Code/MoE)](https://huggingface.co/deepseek-ai) \| 7B/16B/67B/236B \| deepseek \|
8	+	\| [Falcon](https://huggingface.co/tiiuae) \| 7B/11B/40B/180B \| falcon \|
9	+	\| [Gemma/Gemma 2/CodeGemma](https://huggingface.co/google) \| 2B/7B/9B/27B \| gemma \|
10	+	\| [GLM-4](https://huggingface.co/THUDM) \| 9B \| glm4 \|
11	+	\| [InternLM2/InternLM2.5](https://huggingface.co/internlm) \| 7B/20B \| intern2 \|
12	+	\| [Llama](https://github.com/facebookresearch/llama) \| 7B/13B/33B/65B \| - \|
13	+	\| [Llama 2](https://huggingface.co/meta-llama) \| 7B/13B/70B \| llama2 \|
14	+	\| [Llama 3-3.2](https://huggingface.co/meta-llama) \| 1B/3B/8B/70B \| llama3 \|
15	+	\| [LLaVA-1.5](https://huggingface.co/llava-hf) \| 7B/13B \| llava \|
16	+	\| [LLaVA-NeXT](https://huggingface.co/llava-hf) \| 7B/8B/13B/34B/72B/110B \| llava_next \|
17	+	\| [LLaVA-NeXT-Video](https://huggingface.co/llava-hf) \| 7B/34B \| llava_next_video \|
18	+	\| [MiniCPM](https://huggingface.co/openbmb) \| 1B/2B/4B \| cpm/cpm3 \|
19	+	\| [Mistral/Mixtral](https://huggingface.co/mistralai) \| 7B/8x7B/8x22B \| mistral \|
20	+	\| [OLMo](https://huggingface.co/allenai) \| 1B/7B \| - \|
21	+	\| [PaliGemma](https://huggingface.co/google) \| 3B \| paligemma \|
22	+	\| [Phi-1.5/Phi-2](https://huggingface.co/microsoft) \| 1.3B/2.7B \| - \|
23	+	\| [Phi-3](https://huggingface.co/microsoft) \| 4B/7B/14B \| phi \|
24	+	\| [Qwen (1-2.5) (Code/Math/MoE)](https://huggingface.co/Qwen) \| 0.5B/1.5B/3B/7B/14B/32B/72B/110B \| qwen \|
25	+	\| [Qwen2-VL](https://huggingface.co/Qwen) \| 2B/7B/72B \| qwen2_vl \|
26	+	\| [StarCoder 2](https://huggingface.co/bigcode) \| 3B/7B/15B \| - \|
27	+	\| [XVERSE](https://huggingface.co/xverse) \| 7B/13B/65B \| xverse \|
28	+	\| [Yi/Yi-1.5 (Code)](https://huggingface.co/01-ai) \| 1.5B/6B/9B/34B \| yi \|
29	+	\| [Yi-VL](https://huggingface.co/01-ai) \| 6B/34B \| yi_vl \|
30	+	\| [Yuan 2](https://huggingface.co/IEITYuan) \| 2B/51B/102B \| yuan \|

Newer Older

		@@ -0,0 +1,30 @@
1	+	\| Model \| Model size \| Template \|
2	+	\| ----------------------------------------------------------------- \| -------------------------------- \| ---------------- \|
3	+	\| [Baichuan 2](https://huggingface.co/baichuan-inc) \| 7B/13B \| baichuan2 \|
4	+	\| [BLOOM/BLOOMZ](https://huggingface.co/bigscience) \| 560M/1.1B/1.7B/3B/7.1B/176B \| - \|
5	+	\| [ChatGLM3](https://huggingface.co/THUDM) \| 6B \| chatglm3 \|
6	+	\| [Command R](https://huggingface.co/CohereForAI) \| 35B/104B \| cohere \|
7	+	\| [DeepSeek (Code/MoE)](https://huggingface.co/deepseek-ai) \| 7B/16B/67B/236B \| deepseek \|
8	+	\| [Falcon](https://huggingface.co/tiiuae) \| 7B/11B/40B/180B \| falcon \|
9	+	\| [Gemma/Gemma 2/CodeGemma](https://huggingface.co/google) \| 2B/7B/9B/27B \| gemma \|
10	+	\| [GLM-4](https://huggingface.co/THUDM) \| 9B \| glm4 \|
11	+	\| [InternLM2/InternLM2.5](https://huggingface.co/internlm) \| 7B/20B \| intern2 \|
12	+	\| [Llama](https://github.com/facebookresearch/llama) \| 7B/13B/33B/65B \| - \|
13	+	\| [Llama 2](https://huggingface.co/meta-llama) \| 7B/13B/70B \| llama2 \|
14	+	\| [Llama 3-3.2](https://huggingface.co/meta-llama) \| 1B/3B/8B/70B \| llama3 \|
15	+	\| [LLaVA-1.5](https://huggingface.co/llava-hf) \| 7B/13B \| llava \|
16	+	\| [LLaVA-NeXT](https://huggingface.co/llava-hf) \| 7B/8B/13B/34B/72B/110B \| llava_next \|
17	+	\| [LLaVA-NeXT-Video](https://huggingface.co/llava-hf) \| 7B/34B \| llava_next_video \|
18	+	\| [MiniCPM](https://huggingface.co/openbmb) \| 1B/2B/4B \| cpm/cpm3 \|
19	+	\| [Mistral/Mixtral](https://huggingface.co/mistralai) \| 7B/8x7B/8x22B \| mistral \|
20	+	\| [OLMo](https://huggingface.co/allenai) \| 1B/7B \| - \|
21	+	\| [PaliGemma](https://huggingface.co/google) \| 3B \| paligemma \|
22	+	\| [Phi-1.5/Phi-2](https://huggingface.co/microsoft) \| 1.3B/2.7B \| - \|
23	+	\| [Phi-3](https://huggingface.co/microsoft) \| 4B/7B/14B \| phi \|
24	+	\| [Qwen (1-2.5) (Code/Math/MoE)](https://huggingface.co/Qwen) \| 0.5B/1.5B/3B/7B/14B/32B/72B/110B \| qwen \|
25	+	\| [Qwen2-VL](https://huggingface.co/Qwen) \| 2B/7B/72B \| qwen2_vl \|
26	+	\| [StarCoder 2](https://huggingface.co/bigcode) \| 3B/7B/15B \| - \|
27	+	\| [XVERSE](https://huggingface.co/xverse) \| 7B/13B/65B \| xverse \|
28	+	\| [Yi/Yi-1.5 (Code)](https://huggingface.co/01-ai) \| 1.5B/6B/9B/34B \| yi \|
29	+	\| [Yi-VL](https://huggingface.co/01-ai) \| 6B/34B \| yi_vl \|
30	+	\| [Yuan 2](https://huggingface.co/IEITYuan) \| 2B/51B/102B \| yuan \|