您的位置:首页 >综合精选 >

谷歌文档更新可以让语音输入真正有用

GoogleDocs正在进行一次重大更新,很快就会使其语音输入功能在转录会议方面变得更加有用和流行。

几年来,云文字处理器提供了通过语音免​​提“打字”的功能(只需转到“工具”>“语音打字”,打开麦克风)。但是2月初发布的更新将对该功能进行一些增强,以及在Chrome以外的网络浏览器中使用它的选项。

谷歌表示,升级“将有助于减少转录错误并最大限度地减少转录过程中丢失的音频”。当前版本的局限性已经让它输给了TechRadar团队广泛使用的最佳语音到文本应用程序,例如Otter.ai。微软的语音识别和辅助功能工具最近在Word等应用程序中也取得了重大飞跃。

但是,如果GoogleDocs的内置等价物能够与其日益令人印象深刻的竞争对手的准确性相媲美,它可能会成为一种使用更广泛的工具。特别是因为它也可以在谷歌幻灯片中实时显示演讲者的话。

由于另一次升级,该功能也应该继续改进;扩展了对“大多数主要浏览器”的支持。谷歌尚未透露哪些浏览器,但可以肯定地说Safari、Firefox和MicrosoftEdge可能包括在内。

我们可能会在下个月发现更新何时开始推出。订阅快速发布更新的GoogleWorkspace用户将从今天开始看到它的到来,但我们大多数人会看到从2月6日开始的两周内逐步推出。

谷歌并没有明确说明是什么技术在推动其在GoogleDocs中的语音输入升级,但如果向企业提供改善客户交互等服务的服务,它可能类似于基于人工智能的界面。

随着Dall-E和Midjourney以及ChatGPT等聊天机器人的出现,人工智能技术在视觉领域一直在迅速发展。手写识别也得到了很大的推动。但语音可以说是人工智能开发最有用的领域之一,无论是可用性还是可访问性。可靠的语音转文本软件仅仅是个开始。

微软最近推出了一种令人毛骨悚然但可能有用的新型人工智能技术,称为Vall-E,它可以模仿人类的声音(在新标签页中打开)仅基于三秒钟的样本。在类似的主题下,Apple最近推出了第一批带有AI旁白的有声读物(上图)。

这些进步引发了围绕模仿可能性的大量道德问题,这就是为什么这两者背后的技术目前被锁定并且消费者无法使用。但是基于语音技术的潘多拉魔盒已经被戏剧性地打开了。

目前,GoogleDocs(实际上是最好的文本转语音软件)等语音转文本技术的快速改进是这些新人工智能算法最有用的成果。虽然该软件会记录我们的会议记录,但我们会为不可避免的关于下一代语音模仿者的道德辩论抓起爆米花。

免责声明:本文由用户上传,如有侵权请联系删除!