多客科技 发表于 2025-7-31 19:24

【AI学习笔记5】拼图、合奏与AI的“表达智慧”

作者:微信文章
这是我“AI学习笔记”系列的第五篇,记录我作为技术小白一步步理解AI的过程。这一篇是我阅读论文《Foundations & Trends in Multimodal Machine Learning》第7、8页的学习笔记。
当我们说AI能“看图说话”、“听声识物”的时候,背后其实隐藏着一个非常复杂的问题:不同来源的信息——比如图像、语言和声音——到底该怎么组合,才能让AI像人一样理解并回应?

这听上去像是一个工程问题,但实际上,它更像是在教AI一件非常人类的事情——“表达”。你可以想象一下,现在桌上有三张卡片:一张是一幅画,一张是一段话,还有一段是人的语音。我们人类看一眼、听一下,大概就能把这三张卡片合成一个意思。但AI要做到这一点,必须先解决一个核心问题:这些卡片,是要拼在一起看?分开处理?还是既看整体也保留细节?

这其实就是“多模态表示”的本质。简单说,就是AI要怎么“翻译”这些不同形式的信息,让它们能互相理解,再一起做决定。这一步,是所有多模态AI真正“聪明”的起点。

目前科学家给出了三种主要的方法。

第一种叫“融合”,就像把几张卡片拼成一张新画。比如ChatGPT Vision(也就是带图像理解能力的GPT-4V)就是这么做的。它先把图片变成一种语言能读懂的编码,然后跟文字信息混合起来,再一起喂进模型。这种方式非常直接,就像你先看懂了一幅画,再用一句话来描述它发生了什么。

但有些任务不是这么简单。比如自动字幕生成,它不需要你理解画面内容,而是要求文字跟语音时间完全对齐。这时候,“协调”就更重要了。你可以把它想象成中英双语字幕:两种语言独立存在,但必须同时出现在正确的时间点,意思一致。这种AI不要求模态融合,而是在同步与对照上下功夫。YouTube 的自动字幕系统,就是这一类“协调型”的AI典范。

更高级的是一种“裂变式”的表示方法。这里AI既要知道整体说的是什么,也要保留每种模态自己的“性格”。比如一段视频中,观众的情绪来自于语气、表情、甚至背景音乐。如果你只是把所有信息混在一起,可能就会丢掉关键的细节。所以裂变模型更像是一台混音台——你能单独听某个乐器的声音,也能听它和其他乐器合起来的效果。这种能力对于判断“你是不是在生气”这种情绪识别任务来说,就至关重要。像 Affectiva 这样的情绪识别系统,就是依靠这种裂变机制来综合判断的。

说到底,这三种方式没有哪一种“更高级”,它们只是各自适合不同的任务。就像我们在生活中,有时靠整体感觉判断一个人,有时靠一个眼神、一个语气来揣摩对方的情绪。AI也在学这一点:什么时候该合在一起判断,什么时候该分别分析,什么时候又该一边拆一边拼。

技术上,这种“怎么组合信息”的能力,靠的是一系列复杂的数学工具。最常见的是“加法融合”,像是把图像得分80,文字得分90,加起来170,然后据此判断。但更聪明的做法,是“乘法融合”,不仅加总,还看它们之间有没有互动——比如图像和文字讲的是同一件事,那这个组合的“权重”就更高。甚至还有用“张量”的方式来融合,张量可以理解成超高维度的拼图,不光是横竖拼,还能斜着、跳着拼。这种方式虽然威力强大,但计算量极高,多用于科研或高精尖应用,比如医学影像分析。

再聪明一点的模型,还会用“门控机制”——像是在不同模态之间装了开关。哪种信息更有价值,就让它多说一点。比如图片特别清晰、重点突出,那就让图像主导判断;如果文字特别详细,就让语言占主导。这样动态调整模态的权重,也是像ChatGPT这类大模型能在复杂任务中表现自然流畅的关键。

所以,多模态AI最终想学的,其实不是单纯“识别”或“翻译”图像、文字和声音,而是学会像人类一样“理解”:理解信息之间的关联、权重和语境,理解什么时候该强调图像,什么时候该聆听声音,什么时候该停下来思考这句话到底是什么意思。这种智慧,不只是来自算法,也来自对信息结构的深刻洞察。

你可以把AI的理解力,比作一场管弦乐演奏:不同的信息像是不同的乐器,融合是和声,协调是节拍,裂变是独奏与合奏的灵活切换。而真正优秀的AI,就像一位有判断力的指挥家,知道什么时候谁该发声,什么时候该沉默,什么时候要所有模态一起进入高潮。

这,就是AI表达智慧的底层逻辑,也是我们今天这一篇学习笔记的全部。

📚 继续阅读本系列:


今天,我开启了AI学习的新航程
【AI学习笔记1】多模态机器学习入门:为什么它很重要?【AI学习笔记2】多模态学习的难题:6大挑战与异质性维度详解

【AI学习笔记3】多模态学习的连接问题:模态之间怎么“拉得上关系”?

《AI学习笔记4》|模态之间怎么“互动”?从推理机制看AI如何真正“懂你”

欢迎持续关注,和我一起把“AI黑盒”一点点拆开。
页: [1]
查看完整版本: 【AI学习笔记5】拼图、合奏与AI的“表达智慧”