首页 >> 要闻 >

微软的人工智能会自动对视频剪辑进行评论

2022-10-31 19:36:01 来源：用户：

用人工智能生成实时视频字幕可以提高社交媒体的参与度，或作为视频文本翻译任务的基准。为此，前期工作使用了编码器-解码器模型来生成注释，但是他们没有明确地对视频和注释之间的交互进行建模，因此他们倾向于生成不相关的注释。

这就是为什么微软亚洲研究院(Microsoft Research Asia)和哈尔滨工业大学(Harbin Institute of Technology)的一组研究人员在Arxiv.org上发表的一篇预印本论文中提出了一种新技术。他们的模型不断地学习捕获评论、视频和音频之间的表示，并且他们说，在实验中，它比最先进的方法表现得更好。

该系统的代码可以在Github上找到，它将最相关的评论与来自候选集的视频进行匹配，这样它就可以联合学习跨模态表示。它基于谷歌的转换器架构，就像所有的神经网络一样，它包含的功能(神经元)按层排列，从数据中传输信号，并缓慢地调整连接的强度(权重)。惟一的是，转换器具有注意力，这意味着每个输出元素都连接到每个输入元素，并且动态计算它们之间的权重。

具体来说，自动实时评论系统由三个部分组成:将视频的不同模式和候选评论转换成矢量的编码器层。、数学表征);一个匹配层，它学习每个模态的表示;和预测层，输出用于测量视频剪辑和评论之间的匹配程度的分数。给定一个视频和一个时间戳，该模型的目标是从一个候选集合中选择一个注释，该集合基于周围的注释、可视部分和音频部分，与时间戳附近的视频剪辑最相关。在时间戳附近提取注释，对于视觉位，系统在时间戳附近采样视频帧。

研究人员在一个包含2361个视频和895929条评论的视频评论数据集上对该系统进行了评估，该数据集来自视频流平台Bilibili。他们构建了一个候选评论集，其中每个视频剪辑包含100条评论，包括基本事实评论、前20条流行评论和随机选择的评论。

根据团队的说法，该模型在几个度量方面优于几个基线，包括相关性和正确性。例如，在一段以汤团为特色的视频剪辑中，它准确地在视频剪辑的关键点上对汤团进行了评论。研究人员写道:“我们相信多模态预训练将是一个有前途的探索方向，其中图像字幕和视频字幕等任务将受益于预训练的模型。”“在未来的研究中，我们将进一步研究视觉、音频和文本在现实世界中的多模态交互。”

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！