RefCOCO 数据集是一个引用表达生成 (REG)数据集,用于理解引用图像中特定对象的自然语言表达的相关任务。以下是有关 RefCOCO 的关键细节:
收集方法:数据集是使用双人游戏ReferitGame收集的。在这个游戏中,第一个玩家查看带有分割目标对象的图像,并写出引用该对象的自然语言表达。第二个玩家只能看到图像和引用表达,并且必须单击相应的对象。如果两个玩家都表现正确,他们将获得积分并交换角色;否则,他们将收到一个新的对象和图像以供描述。
数据集变体: RefCOCO :包含 19,994 张图像中50,000个对象的 142,209 个引用表达式。RefCOCO +:包含 19,992 张图像中 49,856 个对象的 141,564 个表达式。RefCOCOg :此变体有 25,799 张图像、95,010 个引用表达式和 49,822 个对象实例。
语言和限制:RefCOCO 允许在引用表达式中使用任何类型的语言。RefCOCO+ 不允许在表达式中使用位置词,而应仅关注基于外观的描述(例如,“穿黄色圆点衬衫的男人”),而不是基于观察者的描述(例如,“左边第二个男人”