大语言模型合成数据方法简述(A Brief Introduction to Synthetic Data for Large Language Model)

Li Peiji (李培基), Ma Yichuan (马逸川), Yan Hang (颜航)


Abstract
“大语言模型在过去两年受到了极大的关注,并引起了对通用人工智能的广泛讨论。为了实现通用人工智能,合成数据被认为是其中非常关键的一环。本文将当前常见的数据合成方法归为三类,基于蒸馏的合成数据、基于模型自我进化、基于工具的合成数据。针对每一类合成数据方法,我们简要介绍了几种主流的做法,以期概览各类方法的基本思路以及异同。当前大部分合成数据方法都基于蒸馏,尽管这些方法取得了良好的效果,但其实质是将更强的大模型蒸馏到更小的大模型。这样的方法从降低大模型推理成本的角度具有实际意义,但对于进一步提升大模型能力上限作用有限。基于模型自我进化和基于工具的合成数据研究相对偏少,对于持续提升模型能力,这两个方向需要有更多探索。”
Anthology ID:
2024.ccl-2.5
Volume:
Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 2: Frontier Forum)
Month:
July
Year:
2024
Address:
Taiyuan, China
Editor:
Xin Zhao
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
86–97
Language:
Chinese
URL:
https://aclanthology.org/2024.ccl-2.5/
DOI:
Bibkey:
Cite (ACL):
Li Peiji, Ma Yichuan, and Yan Hang. 2024. 大语言模型合成数据方法简述(A Brief Introduction to Synthetic Data for Large Language Model). In Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 2: Frontier Forum), pages 86–97, Taiyuan, China. Chinese Information Processing Society of China.
Cite (Informal):
大语言模型合成数据方法简述(A Brief Introduction to Synthetic Data for Large Language Model) (Peiji et al., CCL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.ccl-2.5.pdf