---
license: apache-2.0
datasets:
- BelleGroup/train_3.5M_CN
- wangrui6/Zhihu-KOL
language:
- zh
library_name: transformers
pipeline_tag: text-generation
metrics:
- perplexity
- bleu
tags:
- text-generation-inference
---
# 中文对话0.2B小模型 ChatLM-Chinese-0.2B
中文 | [English](https://github.com/charent/ChatLM-mini-Chinese/blob/main/README.en.md)
最新的readme文档请移步Github仓库[ChatLM-mini-Chinese](https://github.com/charent/ChatLM-mini-Chinese)
# 一、👋介绍
现在的大语言模型的参数往往较大,消费级电脑单纯做推理都比较慢,更别说想自己从头开始训练一个模型了。本项目的目标是整理生成式语言模型的训练流程,包括数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等。
ChatLM-mini-Chinese为中文对话小模型,模型参数只有0.2B(算共享权重约210M),可以在最低4GB显存的机器进行预训练(`batch_size=1`,`fp16`或者` bf16`),`float16`加载、推理最少只需要512MB显存。
- 公开所有预训练、SFT指令微调、DPO偏好优化数据集来源。
- 使用`Huggingface`NLP框架,包括`transformers`、`accelerate`、`trl`、`peft`等。
- 自实现`trainer`,支持单机单卡、单机多卡进行预训练、SFT微调。训练过程中支持在任意位置停止,及在任意位置继续训练。
- 预训练:整合为端到端的`Text-to-Text`预训练,非`mask`掩码预测预训练。
- 开源所有数据清洗(如规范化、基于mini_hash的文档去重等)、数据集构造、数据集加载优化等流程;
- tokenizer多进程词频统计,支持`sentencepiece`、`huggingface tokenizers`的tokenizer训练;
- 预训练支持任意位置断点,可从断点处继续训练;
- 大数据集(GB级别)流式加载、支持缓冲区数据打乱,不利用内存、硬盘作为缓存,有效减少内存、磁盘占用。配置`batch_size=1, max_len=320`下,最低支持在16GB内存+4GB显存的机器上进行预训练;
- 训练日志记录。
- SFT微调:开源SFT数据集及数据处理过程。
- 自实现`trainer`支持prompt指令微调, 支持任意断点继续训练;
- 支持`Huggingface trainer`的`sequence to sequence`微调;
- 支持传统的低学习率,只训练decoder层的微调。
- 偏好优化:使用DPO进行全量偏好优化。
- 支持使用`peft lora`进行偏好优化;
- 支持模型合并,可将`Lora adapter`合并到原始模型中。
- 支持下游任务微调:[finetune_examples](https://github.com/charent/ChatLM-mini-Chinese/blob/main/finetune_examples/info_extract/finetune_IE_task.ipynb)给出**三元组信息抽取任务**的微调示例,微调后的模型对话能力仍在。
🟢**最近更新**
2024-01-07
- 添加数据清洗过程中基于mini hash实现的文档去重(在本项目中其实数据集的样本去重),防止模型遇到多次重复数据后,在推理时吐出训练数据。
- 添加`DropDatasetDuplicate`类实现对大数据集的文档去重。
2023-12-29
- 更新模型代码(权重不变),可以直接使用`AutoModelForSeq2SeqLM.from_pretrained(...)`加载模型使用。
- 更新readme文档。
2023-12-18
- 补充利用`ChatLM-mini-0.2B`模型微调下游三元组信息抽取任务代码及抽取效果展示 。
- 更新readme文档。
2023-12-14
- 更新SFT、DPO后的模型权重文件。
- 更新预训练、SFT及DPO脚本。
- 更新`tokenizer`为`PreTrainedTokenizerFast`。
- 重构`dataset`代码,支持动态最大长度,每个批次的最大长度由该批次的最长文本决定,节省显存。
- 补充`tokenizer`训练细节。
2023-12-04
- 更新`generate`参数及模型效果展示。
- 更新readme文档。
2023-11-28
- 更新dpo训练代码及模型权重。
2023-10-19
- 项目开源, 开放模型权重供下载。
# 二、🛠️ChatLM-0.2B-Chinese模型训练过程
## 2.1 预训练数据集
所有数据集均来自互联网公开的**单轮对话**数据集,经过数据清洗、格式化后保存为parquet文件。数据处理过程见`utils/raw_data_process.py`。主要数据集包括:
1. 社区问答json版webtext2019zh-大规模高质量数据集,见:[nlp_chinese_corpus](https://github.com/brightmart/nlp_chinese_corpus)。共410万,清洗后剩余260万。
2. baike_qa2019百科类问答,见:
,共140万,清醒后剩余130万。
3. 中国医药领域问答数据集,见:[Chinese-medical-dialogue-data](https://github.com/Toyhom/Chinese-medical-dialogue-data),共79万,清洗后剩余79万。
4. ~~金融行业问答数据,见:,共77万,清洗后剩余52万。~~**数据质量太差,未采用。**
5. 知乎问答数据,见:[Zhihu-KOL](https://huggingface.co/datasets/wangrui6/Zhihu-KOL),共100万行,清洗后剩余97万行。
6. belle开源的指令训练数据,介绍:[BELLE](https://github.com/LianjiaTech/BELLE),下载:[BelleGroup](https://huggingface.co/BelleGroup),仅选取`Belle_open_source_1M`、`train_2M_CN`、及`train_3.5M_CN`中部分回答较短、不含复杂表格结构、翻译任务(没做英文词表)的数据,共370万行,清洗后剩余338万行。
7. 维基百科(Wikipedia)词条数据,将词条拼凑为提示语,百科的前`N`个词为回答,使用`202309`的百科数据,清洗后剩余119万的词条提示语和回答。Wiki下载:[zhwiki](https://dumps.wikimedia.org/zhwiki/),将下载的bz2文件转换为wiki.txt参考:[WikiExtractor](https://github.com/apertium/WikiExtractor)。
数据集总数量1023万:Text-to-Text预训练集:930万,评估集:2.5万(因为解码较慢,所以没有把评估集设置太大)。~~测试集:90万。~~
SFT微调和DPO优化数据集见下文。
## 2.2 模型
T5模型(Text-to-Text Transfer Transformer),详情见论文: [Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer](https://arxiv.org/abs/1910.10683)。
模型源码来自huggingface,见:[T5ForConditionalGeneration](https://github.com/huggingface/transformers/blob/main/src/transformers/models/t5/modeling_t5.py#L1557)。
模型配置见[model_config.json](https://huggingface.co/charent/ChatLM-mini-Chinese/blob/main/config.json),官方的`T5-base`:`encoder layer`和`decoder layer `均为为12层,本项目这两个参数修改为10层。
模型参数:0.2B。词表大小:29298,仅包含中文和少量英文。
## 2.3 训练过程
硬件:
```bash
# 预训练阶段:
CPU: 28 vCPU Intel(R) Xeon(R) Gold 6330 CPU @ 2.00GHz
内存:60 GB
显卡:RTX A5000(24GB) * 2
# sft及dpo阶段:
CPU: Intel(R) i5-13600k @ 5.1GHz
内存:32 GB
显卡:NVIDIA GeForce RTX 4060 Ti 16GB * 1
```
1. **tokenizer 训练**: 现有`tokenizer`训练库遇到大语料时存在OOM问题,故全量语料按照类似`BPE`的方法根据词频合并、构造词库,运行耗时半天。
2. **Text-to-Text 预训练**:学习率为`1e-4`到`5e-3`的动态学习率,预训练时间为8天。
3. **prompt监督微调(SFT)**:使用`belle`指令训练数据集(指令和回答长度都在512以下),学习率为`1e-7`到`5e-5`的动态学习率,微调时间2天。
4. **dpo直接偏好优化**:数据集[alpaca-gpt4-data-zh](https://huggingface.co/datasets/c-s-ale/alpaca-gpt4-data