-
Notifications
You must be signed in to change notification settings - Fork 45
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
chatglm2-6b输入不跟官方的保持统一吗? #24
Comments
@SCAUapc 确实是这样,空的时候我验证下,然后更新 |
辛苦大佬~ |
老哥我根据官方的改了下,你看看对你哟没有帮助。 chatglm2中官方ptuing处理的方法是:
修改之后:
|
官方的prefix是在query加了ROUND模板之后,然后在最前面加的。我这里也是按它的来 |
👍 |
中的max_target_length写错了,应该是max_output_length。目前我能跑起来。 调了下input_max_len 和output_max_len 还有batch_size 这样可以4小时左右好了 |
@SCAUapc 我在RTX3090上,例子里的那个数据集,11W数据,1个epoch,bz=32,input_max_len+output_max_len=2048,这样的配置大概跑7个小时 |
参照你的修改,能正常跑起来,但loss始终为0.0 ,你知道是什么原因吗? |
请问你代码改动的是哪部分?能把改动的那一版面都发一下不。如果按照原本仓库作者的代码,loss是正常的吗? |
@SCAUapc 原官方chatglm2-6b中的ptuning 的main.py中就修改了这个函数
|
如果要训练多轮,是不是改为:prompt = tokenizer.build_prompt(query, history)就可以训练多轮对话呢? |
我看chatglm2的官方代码里build_inputs的函数如下:
也就是说无论有没有多轮,
这个格式都是有的。但是我看训练代码里的处理数据方式如下:
这里并没有加入如上的模板。是不是加上跟chatglm2对齐的话,会更合适一些?
The text was updated successfully, but these errors were encountered: