-
背景
论文提出了一种创新的以个体为中心的数据合成方法,它依赖于大型语言模型(LLM)内部的多种视角来创造多样化的合成数据。当前合成数据的主要挑战在于如何生成多样化和高质量的数据。 -
已有的工作 目前的方法在利用LLM生成大规模、多样化的合型数据方面存在局限性,无法充分发挥大数据在不同情景下的潜力。
- 提出了一个名为“Persona Hub”的平台
-
挑战1:如何以合理的成本大规模合成数据? 论文设计了一个自动生成的10亿个多元化个体信息的集合,这些个体信息作为分布式世界知识载体,可以几乎利用LLM内封装的所有视角,因此可以便捷地创建适用于各种场景的大规模合成数据。论文的方法通过在合成数学和逻辑推理问题、用户提示、丰富知识的文本、游戏NPC和功能(函数)方面的用例展示,证实了这种以个体为驱动的数据合成方法在多元化、扩展性、灵活性和易用性方面的优势。
-
挑战2:如何确保合成数据的应用安全和负责任? 论文在第5节详细讨论了合成数据的广泛影响和潜在关注点,强调必须避免滥用合成数据并确保其应用的伦理性和负责任。
-
通过案例展示了Persona Hub在合成高质量数学和逻辑推理问题、用户提示、知识丰富文本、游戏NPC和工具(函数)方面的应用,能够有效地驱动合成数据创造和应用的范式转变。在模拟现实用户多元输入的情形下,使用Persona Hub能够以十亿规模帮助合成数据。实验结果展示了7B大小的语言模型使用Persona Hub能够达到与gpt-4-turbo-preview相媲美的65%的MATH性能。
本论文提出了一个名为“Persona Hub”的合成数据平台,在保证生成数据多样化和丰富性的同时,重点关注合成数据的安全和负责任使用。通过一系列用例证明了该方法在多元化、可扩展性、灵活性和易用性方面的优势。