合成图像为人工智能训练效率树立了新标杆

2023-11-21 16:44:03 来源：用户：

数据是新的土壤，在这片肥沃的新土地上，麻省理工学院的研究人员种植的不仅仅是像素。通过使用合成图像来训练机器学习模型，一组科学家最近超越了传统“真实图像”训练方法所获得的结果。

该方法的核心是一个名为 StableRep 的系统，它不仅仅使用任何合成图像;它通过超流行的文本到图像模型(例如稳定扩散)生成它们。这就像用文字创造世界一样。

那么 StableRep 的秘诀是什么?一种称为“多元积极对比学习”的策略。

麻省理工学院博士 Lijie Fan 表示：“我们正在教授模型通过上下文和方差来更多地了解高级概念，而不仅仅是向其提供数据。” 电气工程专业的学生，麻省理工学院计算机科学和人工智能实验室 (CSAIL) 的附属机构，目前发布到arXiv预印本服务器的工作的首席研究员。

“当多个图像全部由相同的文本生成，并且全部被视为同一底层事物的描述时，模型会更深入地研究图像背后的概念，比如对象，而不仅仅是它们的像素。”

这种方法将相同文本提示生成的多个图像视为正对，在训练期间提供附加信息，不仅增加更多多样性，而且向视觉系统指定哪些图像相似、哪些图像不同。值得注意的是，StableRep 在广泛的数据集中超越了在真实图像上训练的顶级模型(例如 SimCLR 和 CLIP)。

“虽然 StableRep 有助于缓解机器学习中数据采集的挑战，但它也引领了人工智能训练技术的新时代。根据命令生成高质量、多样化的合成图像的能力可以帮助减少繁琐的费用和资源， ”范说。

数据收集的过程从来都不是一帆风顺的。在 20 世纪 90 年代，研究人员必须手动拍摄照片来收集物体和面部的数据集。2000 年代，人们在互联网上搜索数据。然而，这些原始的、未经整理的数据与现实世界的场景相比往往存在差异，并反映了社会偏见，呈现出一种扭曲的现实观点。

通过人为干预清理数据集的任务不仅成本高昂，而且极具挑战性。不过，想象一下，如果这种艰巨的数据收集可以简化为像用自然语言发出命令一样简单的事情。

StableRep 获胜的一个关键方面是对生成模型中“指导尺度”的调整，这确保了合成图像的多样性和保真度之间的微妙平衡。经过微调后，用于训练这些自监督模型的合成图像被发现与真实图像一样有效，甚至更有效。

向前迈进了一步，添加了语言监督，创建了一个增强的变体：StableRep+。当使用 2000 万张合成图像进行训练时，与使用 5000 万张真实图像进行训练的 CLIP 模型相比，StableRep+ 不仅实现了卓越的准确性，而且还显示出显着的效率。

然而，前方的道路并非一帆风顺。研究人员坦诚地解决了一些局限性，包括当前图像生成速度缓慢、文本提示与生成图像之间的语义不匹配、偏见的潜在放大以及图像归因的复杂性，所有这些都是未来进步必须解决的问题。

另一个问题是，StableRep 需要首先在大规模真实数据上训练生成模型。该团队承认，从真实数据开始仍然是必要的;但是，当您拥有良好的生成模型时，您可以将其重新用于新任务，例如训练识别模型和视觉表示。

该团队指出，他们还没有摆脱从真实数据开始的需要;只是一旦你有了一个好的生成模型，你就可以将其重新用于新任务，例如训练识别模型和视觉表示。

虽然 StableRep 通过减少对大量真实图像集合的依赖提供了一个很好的解决方案，但它也引起了人们对用于这些文本到图像模型的未经整理的数据中隐藏偏差的担忧。文本提示的选择是图像合成过程中不可或缺的一部分，但并不完全没有偏见，“这表明了细致的文本选择或可能的人工管理的重要作用，”范说。

“使用最新的文本到图像模型，我们对图像生成获得了前所未有的控制，允许通过单个文本输入获得多种视觉效果。这在效率和多功能性方面超越了现实世界的图像收集。事实证明它特别有用在特殊任务中，例如平衡长尾识别中的图像多样性，为使用真实图像进行训练提供了实用的补充，”范说。

“我们的工作标志着视觉学习向前迈出了一步，朝着提供具有成本效益的培训替代方案的目标迈进，同时强调了持续改进数据质量和合成的必要性。”

“长期以来，生成模型学习的一个梦想是能够生成对判别模型训练有用的数据，”谷歌 DeepMind 研究员、多伦多大学计算机科学教授 David Fleet 说道，他没有参与这篇论文。

“虽然我们已经看到了一些生命的迹象，但梦想一直难以捉摸，尤其是在高分辨率图像等大规模复杂领域。据我所知，这篇论文首次提供了令人信服的证据，证明梦想正在成为现实他们表明，从大量合成图像数据中进行对比学习可以产生优于从大规模真实数据中学习到的表示，并有可能改善无数下游视觉任务。”

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！