首页 >> 生活 >

研究团队开发了一种人工智能模型可以有效消除数据集中的偏差

2023-11-02 17:13:59 来源: 用户: 

大邱庆北科学技术学院(DGIST)机器人与机电一体化工程系的Sang-hyunPark教授的研究团队开发了一种新的图像翻译模型,可以有效减少数据偏差。

在使用从不同来源收集的图像开发人工智能(AI)模型的过程中,与用户的意图相反,由于各种因素可能会出现数据偏差。尽管缺乏有关这些因素的信息,开发的模型仍可以消除数据偏差,从而提供较高的图像分析性能。该解决方案预计将促进自动驾驶、内容创作和医学领域的创新。

用于训练深度学习模型的数据集往往会出现偏差。例如,在创建数据集以区分细菌性肺炎和2019年冠状病毒病(COVID-19)时,图像收集条件可能会因COVID-19感染的风险而有所不同。因此,这些变化导致图像中出现细微的差异,导致现有的深度学习模型根据图像协议差异产生的特征来识别疾病,而不是根据实际疾病识别的关键特征。

在这种情况下,这些模型根据用于训练过程的数据表现出高性能。然而,由于无法有效泛化,它们对从不同地方获得的数据表现出有限的性能,这可能导致过度拟合问题。特别是,现有的深度学习技术倾向于使用纹理差异作为关键数据,这可能导致预测不准确。

为了应对这些挑战,Park教授的研究团队开发了一种图像翻译模型,该模型可以生成应用纹理去偏的数据集,并根据生成的数据集执行学习过程。

由于纹理和内容交织在一起,现有的图像翻译模型通常受到纹理变化问题的限制,导致意外的内容更改。为了解决这个问题,Park教授的研究团队开发了一种新模型,该模型同时对纹理和内容使用误差函数。该工作发表在《神经网络》杂志上。

该研究团队提出的新图像翻译模型通过提取输入图像内容的信息和来自不同域的纹理信息并将它们组合起来进行操作。

为了同时维护输入图像内容和新域纹理的信息,开发的模型使用空间自相似性和纹理共现的误差函数进行训练。通过这些过程,模型可以生成具有不同域纹理的图像,同时保留输入图像内容的信息。

由于所开发的深度学习模型生成应用纹理去偏的数据集并使用生成的数据集进行训练,因此它表现出比现有模型更好的性能。

在具有纹理偏差的数据集(例如用于区分数字的分类数据集、用于区分不同毛发颜色的狗和猫的分类数据集以及应用不同图像协议的分类数据集)上进行测试时,与现有的去偏差和图像翻译技术相比,它取得了优异的性能。区分和细菌性肺炎。此外,当应用于具有各种偏差的数据集时,例如用于区分多标签数字的分类数据集以及用于区分照片、图像、动画和草图的分类数据集,它的性能优于现有方法。

此外,Park教授研究团队提出的图像翻译技术可以在图像处理中实现。研究小组发现,所开发的方法仅改变了图像的纹理,同时保留了其原始内容。该分析结果证实了所开发的方法与现有图像处理方法相比具有优越的性能。

此外,该解决方案可以有效地用于其他环境。研究团队将所开发方法的性能与基于医学和自动驾驶图像等各个领域的现有图像翻译方法的性能进行了比较。根据分析结果,所开发的方法比现有方法表现出更好的性能。

Park教授表示:“在工业和医疗领域不可避免地使用有偏差的数据集来训练深度学习模型的情况下,这项研究开发的技术可以显着提高性能。”

他补充道:“预计该解决方案将为增强商业用途或出于商业目的分布在不同环境中的人工智能模型的稳健性做出重大贡献。”

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章