标注方式上:
RefCOCOg采用的是非交互式标注法,选定区域请人标注,再请另外一批人根据标注的expression选择对应的region;
RefCOCO和RefCOCO+采用的是双人游戏 (Refer it game)的方式.
数据划分方式上:
RefCOCO和RefCOCO+包含train, val, testA, testB。testA的图片包含多个人;testB的图片包含多个除人之外的物体。同一个图片的object-expression样本对要么全在训练集,要么全在验证\测试集。
RefCOCOg包含train, val, test。是按照object进行划分的,同一个图片的object-expression样本对集合可能会在训练集一部分,在验证\测试集另一部分。
图片选择上:
RefCOCO:图像包含同一类别的多个物体。
RefCOCO+:图像包含同一类别的多个物体,并且expression不能有绝对位置(e.g., left)的词。
RefCOCOg:图像包含同一类别的2-4个物体,覆盖面积超过图片面积的5%