多智能体使用特定工具交互 Emergent Tool Use from Multi-Agent Interaction
通过多智能体竞争,捉迷藏的简单目标以及大规模的标准强化学习算法,本文发现智能体创建了一个自我监督的自动课程,引发了多种不同的涌现策略轮次,其中许多轮需要复杂的工具使用和协调。本文发现在环境中代理策略中出现了六个紧急阶段的明确证据,每个阶段都为对立团队施加新的压力。例如,智能体学会使用可移动的盒子来建造多目标掩体,这反过来又导致智能体发现它们可以使用坡道克服障碍。本文进一步提供的证据表明,与其他自我监督的强化学习方法(例如内在动机)相比,多主体竞争可能会随着环境复杂性的提高而更好地扩展,并导致行为以人类相关技能为中心。后,本文提出转移和微调作为定量评估目标能力的一种方法,并在一组领域特定的智力测试中将捉迷藏的代理与内在动机和随机初始化基准进行比较。
论文链接:https://arxiv.org/pdf/1909.07528.pdf
上一条:
没有啦!