Meta大动作!开源多感官AI模型,不仅能看会听,还能“感知温度”_聚焦

前段时间,带着开源模型LlaMA“杀的”谷歌和微软“措手不及”的Meta,又一次在AI战场上丢下了一颗重磅炸弹。


(资料图片仅供参考)

今天,Meta重磅开源了多感官AI模型ImageBind(https://github.com/facebookresearch/ImageBind)。以视觉为核心,结合文本、声音、深度、热量(红外辐射)、运动(惯性传感器),最终可以做到6个模态之间任意的理解和转换。

这也是第一个能够整合六种类型数据的AI模型。

如何让AI以更接近人类的方式理解这个世界?——也让AI拥有多种感官,学会“脑补”。

一张大海的照片可以让我们的脑海里响起海浪的声音,回忆起海边腥咸的味道。当我们听到瀑布声,脑海里便会浮现恢弘的瀑布奇观。

Meta指出,未来还将有其他可以被添加到模型中的感官输入流,包括“触摸、讲话、气味和大脑fMRI(功能性磁共振成像)信号”。与此同时,ImageBind还可以进行跨模态检索,如火车喇叭音频,文本、深度、图片和视频。

尽管目前ImageBind只是一个研究项目,但它展示了未来人工智能生成多感官感知的可能性,或许也使Meta的元宇宙梦更近了。

Meta在论文中解释称,他们把不同模态数据串联在了一个嵌入空间(Embedding Space),让其从多维度理解世界。

有网友评价道,imageBind的出现使AI发展过程中又迎来了激动人心的时刻:

“这项创新为AI搜索能力、沉浸式VR体验和更高级的AI技术铺平了道路。对于AI爱好者和专业人士来说,激动人心的时刻即将到来!”。

有网友评论称,ImageBind的诞生就是为了模拟人类感知。ImageBind面世,贾维斯也不远了。

英伟达科学家Jim Fan点评道:自LLaMA以来,Meta就在开源领域大放异彩。

不过,对于Meta开源大模型的做法,也有人提出了质疑。如OpenAI便表示,这种做法对创作者有害,竞争对手可以随意复制且可能具有潜在的危险,允许恶意行为者利用最先进的人工智能模型。

更接近人类感知的元宇宙?

相比Midjourney、Stable Diffusion和DALL-E 2这样简单的将文字与图像配对的生成器,ImageBind试图让AI更接近人类的思考和感知方式:

可以连接文本、图像/视频、音频、3D 测量(深度)、温度数据(热)和运动数据(来自 IMU),且它无需先针对每一种可能性进行训练,直接预测数据之间的联系,类似于人类感知或想象的方式。

这个模型利用到了图像的绑定(binding)属性,只要将每个模态的嵌入与图像嵌入对齐,就会实现所有模态的迅速对齐。

简单来说就是图像成为了连接这些模态的桥梁。

例如Meta利用网络数据将文本与图像连接起来,或者利用带有IMU传感器的可穿戴相机捕捉到的视频数据将运动与视频连接起来。

Meta在论文中指出,ImageBind的图像配对数据足以将这六种模态绑定在一起。

模型可以更全面地解释内容,使不同的模态相互“对话”,并找到它们之间的联系。

例如,ImageBind可以在没有一起观察音频和文本的情况下将二者联系起来。这使得其他模型能够“理解”新的模态,而不需要任何资源密集型的训练。

具体而言,ImageBind利用网络规模(图像、文本)匹配数据,并将其与自然存在的配对数据(视频、音频、图像、深度)相结合,以学习单个联合嵌入空间。

这样做使得ImageBind隐式地将文本嵌入与其他模态(如音频、深度等)对齐,从而在没有显式语义或文本配对的情况下,能在这些模态上实现零样本识别功能。

与此同时,Meta表示,ImageBind可以使用大规模视觉语言模型(如 CLIP)进行初始化,从而利用这些模型的丰富图像和文本表示。因此,ImageBind只需要很少的训练就可以应用于各种不同模态和任务。

如果与其他AI结合,还可以做到跨模态的生成。

比如听到狗叫画出一只狗,同时给出对应的深度图和文字描述。

甚至还做到不同模态之间的运算,如鸟的图像+海浪的声音,得到鸟在海边的图像。

对此,Meta在其官方博客中也说道,“ImageBind 可以胜过之前为一种特定模式单独训练的技术模型。但最重要的是,它能更好地一起分析许多不同形式的信息,从而推进人工智能的发展。”

Meta团队认为,ImageBind为设计和体验身临其境的虚拟世界打开了大门。或许也让Meta离幻想中的元宇宙世界更近了一步。

可以怎么搜?

模型具体可以怎么用?Meta开放了模型演示,具体包括:

使用图像检索音频

以图像或视频作为输入,可以生成音频。比如选择一张小狗的图片,就能够检索到狗吠的音频。使用音频检索图像

通过一个音频片段,给出一张对应的图。听着鸟鸣,小鸟的图片便出现了。

使用文本来检索图像和音频

选择下面的一个文本提示,ImageBind将检索与该特定文本相关的一系列图像和音频片段。

使用音频+图像来检索相关图像

给一段狗叫声再加一张海滩的图片。ImageBind可以在几分钟内检索出相关图像。

得到了一张“狗望海”的图:

使用音频来生成图像

要想实现音频生图像,ImageBind需要和其他模型一起结合用,比如 DALL-E 2等生成模型。

来个下雨哗啦啦的声音,身在其中的意境图就来了。

ImageBind的性能有多卓越?——打败专家模型

在Meta研究科学家于近期发布的题为《IMAGEBIND:一个嵌入空间绑定所有模态》(《IMAGEBIND: One Embedding Space To Bind Them All》https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf)的论文中指出,ImageBind模型的第一大优势在于,仅通过很少的样本及训练,模型性能便可提高:

此前,往往需要收集所有可能的配对数据组合,才能让所有模态学习联合嵌入空间。

ImageBind规避了这个难题,它利用最近的大型视觉语言模型,将零样本能力扩展到新的模态。

Meta的模型具有小模型所不具备的出色能力,这些性能通常只会在大模型中才会呈现。比如:音频匹配图片、判断照片中的场景深度等等。

Meta的研究表明,视觉模型越强,ImageBind对齐不同模态的能力就越强。

在实验中,研究人员使用了 ImageBind 的音频和深度编码器,并将其与之前在zero-shot检索以及音频和深度分类任务中的工作进行了比较。

结果显示,ImageBind可以用于少量样本的音频和深度分类任务,并且优于之前定制的方法。

而以图像/视频为中心训练好AI后,对于原始数据中没有直接联系的模态,比如语音和热量,ImageBind表现出涌现能力,把他们自发联系起来。

在定量测试中,研究人员发现,ImageBind的特征可以用于少样本音频和深度分类任务,并且可以胜过专门针对这些模态的先前方法。

在基准测试上,ImageBind 音频和深度方面优于专家模型

比方说,ImageBind在少于四个样本分类的top-1准确率上,要比Meta的自监督AudioMAE模型和在音频分类fine-tune上的监督AudioMAE模型提高了约40%的准确率。

Meta希望,AI开发者社区能够探索ImageBind,来开发其可以应用的新途径。

Meta认为,关于多模态学习仍有很多需要探索的地方。ImageBind这项技术最终会超越目前的六种“感官”,其在博客上说道,“虽然我们在当前的研究中探索了六种模式,但我们相信引入连接尽可能多的感官的新模式——如触觉、语音、嗅觉和大脑 fMRI 信号——将使更丰富的以人为中心的人工智能模型成为可能。” 

风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

关键词: