减少对昂贵的人工标记的需求:通过生成这些伪边界框标签,我们的方法减少了对(昂贵的)人工标记工作的需求。
扩展标签空间:实际上,签的空间,使其包括“真实的”(人造的)注释或“伪的”(人工智能制造的)注释。
可推广的概念证明:我们的方法不仅表明可以自动高效地为各种对象生成高质量的伪边界框标签,而且对新对象表现出强大的泛化性能。
最佳 OVD:我们发现的出色性能结果(超越现有的 SOTA 方法)表明,我们的方法可以实现真正的 OVD——一个可以识别多样化和无数现实世界物体的系统,而不会面临依赖于人工注释或缺乏泛化能力的其他 OVD 方法所面临的限制。
未来方向和目标:
更好的预训练:我们打算通过为视觉语言模型设计更好的预训练策略来进一步提高伪边界框标签的质量,以提升其定位能力。
迈向通用物体检测器 + 实际应用优势:凭借 AI 生成的伪边界框标签(消除了需要人工标 手机号数据库列表 注的瓶颈),以及强大的泛化性能,我们的方法使我们更接近通用物体检测器的梦想。在未来的工作中,我们将致力于训练一个带有伪标签的通用物体检测器,以检测更广泛的实际物体,并将其应用于改进多个与视觉相关的实际问题的解决方案。
探索更多
Salesforce AI Research 诚邀您深入了解本博文(链接如下)中讨论的概念。欢迎通过社交媒体和我们的网站与我们联系,定期获取本研究项目及其他研究项目的最新消息。
陈星是加州帕洛阿尔托 Salesforce Research 的研究科学家。她拥有南开大学博士学位。她的研究方向为大型预训练模型的“智能应用”:她热衷于以无监督的方式有效地预训练大型语言或视觉语言模型,并将其智能地应用于下游任务。