-
背景
论文介绍的背景是在3D环境中构建可以遵循任意语言指令的AI系统是创造通用人工智能的关键挑战。为了完成这一目标,需要学会在感知和体化行动中对语言进行具体化,以完成复杂的任务。 -
已有的工作 现有的工作难以实现跨多种视觉复杂且语义丰富的环境对语言进行具体化的AI系统的创建。同时,现有研究一般在限定的环境中应用语言指令来控制行动,而不是广泛地、通用地解决这个问题。
- 提出了一个可扩展、可指导的多世界代理系统(SIMA)
-
挑战1:具体化和通用性 论文提出使用一种通用方法——通过图像观察和语言指令作为输入,键盘和鼠标动作作为输出,这使得代理能够在多种视觉复杂和语义丰富的环境中具体化语言。该方法具有挑战性,但允许我们在新环境中快速运行代理。
-
挑战2:性能和可扩展性 该系统针对广泛的虚拟3D环境,从定制研究环境到一系列商业视频游戏,通过少量假设实现操作的泛用性和可扩展性。然而,这样一个系统需要在GPU上运行每个商业视频游戏,因此无法像在强化学习中常做的那样,在每个实验中运行数百或数千个执行者。
-
代理接受与人类玩家相同的屏幕观测,通过键盘和鼠标操作进行交互,这需要巨量的训练数据来实现AI的泛化。然而,该论文的初步结果在多种研究环境和商业视频游戏中均显示出了希望。该项目尝试跨许多模拟环境以尽可能通用和可扩展的方式处理该问题,相比先前的工作,这个方法有所挑战性,但它允许以与人类相同的方式与环境互动。
此论文提出的SIMA项目旨在创建一个能够在各种模拟3D环境中根据任意语言指令进行操作的AI系统。该系统的设计致力于解决在感知和体化行动中具体化语言的挑战,以及在许多不同环境中实现通用性和可扩展性。