-
背景
该文章介绍了现有的多模态多代理系统(Multi-modal Multi-Agent System),其使用多模态大型语言模型(LLM)作为代理的中心控制单元,通过多模态信号作为代理之间交换消息的媒介。现有系统面临的挑战是如何提高系统的多代理能力,并增强其在模拟人类交流时的表现。 -
已有的工作 目前的多代理系统或者多模态系统虽然在一定程度上能够处理复杂的交互场景,但是它们通常受限于各自的模式,并且没有能力模拟真实的人类交流和表情丰富的对话场景。此外,这些系统在以语音为主要交互形式时,往往缺乏足够的真实感和情感表达。
- 提出了一个名为 SpeechAgents 的多模态多代理系统
-
挑战1:如何传达真实的情感和合理的节奏。 挑战是如何模拟真实的人类交流对话,包括正确的内容、真实的节奏和丰富的情感。SpeechAgents 通过将多模态语言模型作为代理的中心控制,并使用多模态信号交换消息来实现这一点。实验结果表明,SpeechAgents 系统可以模拟一致性和质量都相对较高的人类交流对话。
-
挑战2:如何增强系统在处理多代理情境下的可扩展性。 挑战是提高系统在场景中代理数量增加时的可扩展性。SpeechAgents 证明了系统即使在涉及 25 个代理的情境中,也能生成一致性和质量都较高的脚本,显示了框架的强大可扩展性。
-
根据实验结果,SpeechAgents 模型在多代理人类交流模拟方面表现出较高的一致性(C-Score)和质量分数(Q-Score)。与其他基线系统相比,例如 LLaMA2-MAT 和 Speech-ChatGPT,SpeechAgents 在这两个评分方面的表现都相当——这说明了多模态信号作为代理间信息交换媒介的有效性和潜力。此外,SpeechAgents 也展现出某种程度的一般性能(General Ability),在语音到语音对话任务中的表现与在人类交流模拟任务中所使用的多代理调优方法一样好。这额外证实了多代理调优对提升系统一般性能的贡献。
论文提出了一个基于多模态大型语言模型的多代理系统——SpeechAgents,其能模拟包含多达 25 名代理人的人类交流场景,并展现出卓越的可扩展性。通过使用多模态信号作为代理间交流的媒介,系统不仅可以模拟具有正确内容、真实节奏和丰富情感的对话,而且还能应用于如戏剧创作和有声小说生成等任务。