嵌入智能的数据评估
在具体化的情报中,数据集起着关键作用,既是知识存储库,也是信息传输的渠道。 数据集的两个最关键的属性是它提供的信息量以及这些信息如何容易地通过模型来学习。 然而,体现数据的多模态性使得评估这些属性特别具有挑战性。 之前的工作主要集中在多样性上,通常计算任务和场景或评估孤立的模式,这无法提供数据集多样性的全面图景。 另一方面,数据集的可学习性很少受到关注,通常通过模型训练进行评估,这是一个昂贵而耗时的过程,也缺乏可解释性,几乎没有提供如何改进数据集的指导。 在这项工作中,我们通过引入两个有原则的数据驱动工具来应对这两个挑战。 首先,我们为每个数据样本构建一个统一的多模态表示,并基于它提出多样性熵,这是一个连续的度量,表征数据集中包含的信息量。 其次,我们引入了第一个可解释的数据驱动算法,无需训练即可有效地量化数据集的可学习性,使研究人员能够在数据集发布后立即评估数据集的可学习性。 我们在模拟和现实世界的数据集上验证了我们的算法,证明它产生了忠实的,可操作的见解,使研究人员能够共同提高多样性和可学习性。 我们希望这项工作为设计更高质量的数据集奠定基础,从而推进体现智能的发展。
机器人学