chatglm2-6b输入不跟官方的保持统一吗？ #24

SCAUapc · 2023-07-14T02:27:02Z

我看chatglm2的官方代码里build_inputs的函数如下：

def build_inputs(self, tokenizer, query: str, history: List[Tuple[str, str]] = None):
      prompt = ""
      for i, (old_query, response) in enumerate(history):
          prompt += "[Round {}]\n\n问：{}\n\n答：{}\n\n".format(i + 1, old_query, response)
      prompt += "[Round {}]\n\n问：{}\n\n答：".format(len(history) + 1, query)
      inputs = tokenizer([prompt], return_tensors="pt")
      inputs = inputs.to(self.device)
      return inputs

也就是说无论有没有多轮，

[Round {}]\n\n问：{}\n\n答：

这个格式都是有的。但是我看训练代码里的处理数据方式如下：

def tokenize_func(example, tokenizer, global_args, ignore_label_id=-100):
    """单样本tokenize处理"""
    question = global_args.prompt_text + example['instruction']
    if example.get('input', None):
        if example['input'].strip():
            question += f'''\n{example['input']}'''
    answer = example['output']
    q_ids = tokenizer.encode(text=question, add_special_tokens=False)
    a_ids = tokenizer.encode(text=answer, add_special_tokens=False)
    if len(q_ids) > global_args.max_input_length - 2:  # 2 - gmask, bos
        q_ids = q_ids[: global_args.max_input_length - 2]
    if len(a_ids) > global_args.max_output_length - 1:  # 1 - eos
        a_ids = a_ids[: global_args.max_output_length - 1]
    input_ids = tokenizer.build_inputs_with_special_tokens(q_ids, a_ids)
    # question_length = input_ids.index(tokenizer.bos_token_id)
    question_length = len(q_ids) + 2  # chatglm1 - gmask, bos, chatglm2 - gmask, sop
    labels = [ignore_label_id] * question_length + input_ids[question_length:]
    return {'input_ids': input_ids, 'labels': labels}

这里并没有加入如上的模板。是不是加上跟chatglm2对齐的话，会更合适一些？

The text was updated successfully, but these errors were encountered:

shuxueslpi · 2023-07-14T03:05:30Z

@SCAUapc 确实是这样，空的时候我验证下，然后更新

SCAUapc · 2023-07-14T03:06:38Z

@SCAUapc 确实是这样，空的时候我验证下，然后更新

辛苦大佬~

SCAUapc · 2023-07-14T05:09:16Z

老哥我根据官方的改了下，你看看对你哟没有帮助。

chatglm2中官方ptuing处理的方法是：

    def preprocess_function_train(examples):
        max_seq_length = data_args.max_source_length + data_args.max_target_length + 1

        model_inputs = {
            "input_ids": [],
            "labels": [],
        }
        for i in range(len(examples[prompt_column])):
            if examples[prompt_column][i] and examples[response_column][i]:
                query, answer = examples[prompt_column][i], examples[response_column][i]

                history = examples[history_column][i] if history_column is not None else None
                prompt = tokenizer.build_prompt(query, history)

                prompt = prefix + prompt
                a_ids = tokenizer.encode(text=prompt, add_special_tokens=True, truncation=True,
                                         max_length=data_args.max_source_length)
                b_ids = tokenizer.encode(text=answer, add_special_tokens=False, truncation=True,
                                         max_length=data_args.max_target_length)

                context_length = len(a_ids)
                input_ids = a_ids + b_ids + [tokenizer.eos_token_id]
                labels = [tokenizer.pad_token_id] * context_length + b_ids + [tokenizer.eos_token_id]
                
                pad_len = max_seq_length - len(input_ids)
                input_ids = input_ids + [tokenizer.pad_token_id] * pad_len
                labels = labels + [tokenizer.pad_token_id] * pad_len
                if data_args.ignore_pad_token_for_loss:
                    labels = [(l if l != tokenizer.pad_token_id else -100) for l in labels]

                model_inputs["input_ids"].append(input_ids)
                model_inputs["labels"].append(labels)

        return model_inputs

修改之后：

def tokenize_func_v2(example, tokenizer, global_args, ignore_label_id=-100):
    query = example['instruction']
    if example.get('input', None):
        if example['input'].strip():
            query += f'''\n{example['input']}'''

    prompt = tokenizer.build_prompt(query)
    prompt = global_args.prompt_text + prompt
    answer = example['output']

    a_ids = tokenizer.encode(text=prompt, add_special_tokens=True, truncation=True,
                             max_length=global_args.max_input_length)
    b_ids = tokenizer.encode(text=answer, add_special_tokens=False, truncation=True,
                             max_length=global_args.max_target_length)

    context_length = len(a_ids)
    input_ids = a_ids + b_ids + [tokenizer.eos_token_id]
    # prompt需要使用pad_token_id，后面不需要学习。
    labels = [tokenizer.pad_token_id] * context_length + b_ids + [tokenizer.eos_token_id]

    max_seq_length = global_args.max_input_length + global_args.max_output_length + 1

    pad_len = max_seq_length - len(input_ids)
    input_ids = input_ids + [tokenizer.pad_token_id] * pad_len
    labels = labels + [tokenizer.pad_token_id] * pad_len

    # ignore_pad_token_for_loss (包括pad和prompt的)
    labels = [(l if l != tokenizer.pad_token_id else ignore_label_id) for l in labels]

    return {'input_ids': input_ids, 'labels': labels}

SCAUapc · 2023-07-14T05:11:37Z

官方的prefix是在query加了ROUND模板之后，然后在最前面加的。我这里也是按它的来

shuxueslpi · 2023-07-14T05:53:25Z

👍
我回头用这个跑一个完整的对比下

SCAUapc · 2023-07-14T09:16:17Z

    b_ids = tokenizer.encode(text=answer, add_special_tokens=False, truncation=True,
                             max_length=global_args.max_target_length)

中的max_target_length写错了，应该是max_output_length。目前我能跑起来。
想问下大佬，这边训练速度快吗？我1W条薯条2个epoch要70+小时...1080卡单张，batch 1，感觉好慢...我之前用Lora我记得蛮快的，2、3小时就好了

调了下input_max_len 和output_max_len 还有batch_size 这样可以4小时左右好了

shuxueslpi · 2023-07-14T09:46:47Z

@SCAUapc 我在RTX3090上，例子里的那个数据集，11W数据，1个epoch，bz=32，input_max_len+output_max_len=2048，这样的配置大概跑7个小时

darvsum · 2023-07-20T00:24:57Z

参照你的修改，能正常跑起来，但loss始终为0.0 ，你知道是什么原因吗？

SCAUapc · 2023-07-20T02:44:36Z

参照你的修改，能正常跑起来，但loss始终为0.0 ，你知道是什么原因吗？

请问你代码改动的是哪部分？能把改动的那一版面都发一下不。如果按照原本仓库作者的代码，loss是正常的吗？

darvsum · 2023-07-20T12:14:31Z

@SCAUapc 原官方chatglm2-6b中的ptuning 的main.py中就修改了这个函数
def preprocess_function_train(examples):
max_seq_length = data_args.max_source_length + data_args.max_target_length + 1

    model_inputs = {
        "input_ids": [],
        "labels": [],
    }

    #print(examples['text'])
    examples = examples['text']
    for i in range(len(examples)):
        example = json.loads(examples[i])
        #print(example)
        if example[prompt_column] and example[response_column]:
            query, answer = example[prompt_column], example[response_column]

            #history = examples[history_column][i] if history_column is not None else None
            prompt = tokenizer.build_prompt(query)
            prompt = prefix + prompt

            a_ids = tokenizer.encode(text=prompt, add_special_tokens=True, truncation=True,
                                     max_length=data_args.max_source_length)
            b_ids = tokenizer.encode(text=answer, add_special_tokens=False, truncation=True,
                                     max_length=data_args.max_target_length)

            context_length = len(a_ids)
            input_ids = a_ids + b_ids + [tokenizer.eos_token_id]
            labels = [tokenizer.pad_token_id] * context_length + b_ids + [tokenizer.eos_token_id]
            
            pad_len = max_seq_length - len(input_ids)
            input_ids = input_ids + [tokenizer.pad_token_id] * pad_len
            labels = labels + [tokenizer.pad_token_id] * pad_len

            if data_args.ignore_pad_token_for_loss:
                labels = [(l if l != tokenizer.pad_token_id else -100) for l in labels]

            model_inputs["input_ids"].append(input_ids)
            model_inputs["labels"].append(labels)

    return model_inputs

Parker0000 · 2023-08-08T08:52:10Z

如果要训练多轮，是不是改为：prompt = tokenizer.build_prompt(query, history)就可以训练多轮对话呢？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

chatglm2-6b输入不跟官方的保持统一吗？ #24

chatglm2-6b输入不跟官方的保持统一吗？ #24

SCAUapc commented Jul 14, 2023 •

edited

Loading

shuxueslpi commented Jul 14, 2023

SCAUapc commented Jul 14, 2023

SCAUapc commented Jul 14, 2023 •

edited

Loading

SCAUapc commented Jul 14, 2023

shuxueslpi commented Jul 14, 2023

SCAUapc commented Jul 14, 2023 •

edited

Loading

shuxueslpi commented Jul 14, 2023

darvsum commented Jul 20, 2023

SCAUapc commented Jul 20, 2023

darvsum commented Jul 20, 2023

Parker0000 commented Aug 8, 2023

chatglm2-6b输入不跟官方的保持统一吗？ #24

chatglm2-6b输入不跟官方的保持统一吗？ #24

Comments

SCAUapc commented Jul 14, 2023 • edited Loading

shuxueslpi commented Jul 14, 2023

SCAUapc commented Jul 14, 2023

SCAUapc commented Jul 14, 2023 • edited Loading

SCAUapc commented Jul 14, 2023

shuxueslpi commented Jul 14, 2023

SCAUapc commented Jul 14, 2023 • edited Loading

shuxueslpi commented Jul 14, 2023

darvsum commented Jul 20, 2023

SCAUapc commented Jul 20, 2023

darvsum commented Jul 20, 2023

Parker0000 commented Aug 8, 2023

SCAUapc commented Jul 14, 2023 •

edited

Loading

SCAUapc commented Jul 14, 2023 •

edited

Loading

SCAUapc commented Jul 14, 2023 •

edited

Loading