MIT突破：DenseAV算法革新机器语言理解，无需文本即可从视频中领悟语言含义

AI每日新闻2年前 (2024)发布 shen

1,464 0 0

在人工智能领域，语言理解一直是一个挑战性问题。然而，麻省理工学院（MIT）的最新研究为我们带来了一个令人振奋的突破。据了解，MIT计算机科学与人工智能实验室(CSAIL)的博士生Mark Hamilton及其团队，开发了一种名为DenseAV的新算法，这一算法通过观看视频即可学习语言的含义，无需任何文本输入。

DenseAV算法的核心在于其独特的音视频匹配学习机制。AI旋风认为，这一机制通过关联音频和视频信号，使机器能够“观察”并理解语言的真实含义。在训练过程中，DenseAV被要求参与一个音视频匹配游戏，即当听到某个声音时，算法需要在视频流中准确找到与之对应的图像元素。例如，当听到“狗”这个词时，DenseAV能够迅速定位到视频中的狗狗。

令人惊叹的是，DenseAV不仅能够识别语言中的单词含义，还能够区分不同的声音来源。在实验中，研究人员发现，当DenseAV听到狗叫声时，它同样能够找到视频中的狗狗。这一发现表明，DenseAV已经学会了区分语言与声音的不同，并能够准确地识别出它们之间的跨模态连接。 MIT突破：DenseAV算法革新机器语言理解，无需文本即可从视频中领悟语言含义

DenseAV的功能特点可谓独具匠心。首先，它采用了一种双编码器接地架构，通过观看视频学习高分辨率、语义意义和视听对齐的特征。其次，DenseAV能够在没有明确定位监督的情况下发现单词的“含义”和声音的“位置”，实现了真正的无监督学习。此外，该算法还能够自动区分单词含义和声音位置的关联，无需任何人工干预或文字输入。

在技术上，DenseAV利用音视频对比学习将声音与视觉世界紧密联系起来。它基于本地音频和视觉表示令牌之间内部积的对比相似性，显著提高了定位信息的能力。这使得DenseAV能够在不知道什么是声音、什么是语言的情况下，自然地将其特征组织为声音特征和语言特征。

在性能上，DenseAV也展现出了卓越的优势。与使用大量参数的ImageBind等先前模型相比，DenseAV在跨模态检索方面取得了更好的效果，而且使用的参数数量还不到前者的一半。这一成就充分证明了DenseAV算法的高效性和实用性。 MIT突破：DenseAV算法革新机器语言理解，无需文本即可从视频中领悟语言含义

这一研究的潜在应用领域广泛且令人兴奋。首先，DenseAV算法可以用于从每天发布到互联网的大量视频中学习新语言。这对于理解那些没有书面交流形式的语言，如海豚或鲸鱼的交流方式，具有重要的应用价值。此外，DenseAV还可以用于发现其他信号之间的模式关联，如地球发出的地震声和地质情况之间的关系。

然而，研究团队也面临着巨大的挑战。他们需要在没有任何文本输入的情况下学习语言，这意味着他们必须从零开始重新发现语言的含义。为此，研究人员受到儿童通过观察和倾听环境来理解语言的启发，试图让DenseAV也具备这种能力。

MIT的这一研究成果不仅为我们打开了一个全新的视角来理解和应用人工智能，也为未来的语言理解技术提供了新的思路和方向。我们期待DenseAV算法在更多领域发挥其潜力，为人类社会带来更多的便利和进步。