deepseek-moe模型在进行lora微调训练时loss值会突然变为0一直到最后，导致推理异常。 #27

hangchen426926 · 2024-02-29T06:50:41Z

现象1：deepseek-moe模型在进行lora微调训练时loss值会突然变为0一直到最后，导致推理异常，输出结果为：！！！。

现象2：deepseek-moe模型在checkpoint模型基础上进一步lora微调训练，会报错。
需要将trainer.train(resume_from_checkpoint = resume_from_checkpoint_dir)改为：
trainer.train() 才会启动成功。但保存的checkpoint就会从头开始，而不是从原checkpoint模型开始。

期待回复，谢谢~

zwd003 · 2024-03-01T02:42:24Z

请问报错结果是什么呢，resume需要加载lora的adapter

hangchen426926 · 2024-03-01T02:52:54Z

请问报错结果是什么呢，resume需要加载lora的adapter

从基础模型开始lora训练时不会报错，推理也不报错，就是loss值会在1个epoch后突然变为0，微调后模型推理返回结果是一堆感叹号。但如果lora微调想在resume上加载lora的adapter，使用trainer.train(resume_from_checkpoint = resume_from_checkpoint_dir)训练会报错额。

zyzyyy123 · 2024-07-24T06:25:50Z

请问报错结果是什么呢，resume需要加载lora的adapter

从基础模型开始lora训练时不会报错，推理也不报错，就是loss值会在1个epoch后突然变为0，微调后模型推理返回结果是一堆感叹号。但如果lora微调想在resume上加载lora的adapter，使用trainer.train(resume_from_checkpoint = resume_from_checkpoint_dir)训练会报错额。

请问你这个问题解决了吗

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

deepseek-moe模型在进行lora微调训练时loss值会突然变为0一直到最后，导致推理异常。 #27

deepseek-moe模型在进行lora微调训练时loss值会突然变为0一直到最后，导致推理异常。 #27

hangchen426926 commented Feb 29, 2024

zwd003 commented Mar 1, 2024

hangchen426926 commented Mar 1, 2024 •

edited

Loading

zyzyyy123 commented Jul 24, 2024

deepseek-moe模型在进行lora微调训练时loss值会突然变为0一直到最后，导致推理异常。 #27

deepseek-moe模型在进行lora微调训练时loss值会突然变为0一直到最后，导致推理异常。 #27

Comments

hangchen426926 commented Feb 29, 2024

zwd003 commented Mar 1, 2024

hangchen426926 commented Mar 1, 2024 • edited Loading

zyzyyy123 commented Jul 24, 2024

hangchen426926 commented Mar 1, 2024 •

edited

Loading