多模态大模型工作原理

多模态大模型(MLLM)已经成为必然的发展趋势,文字里的信息和知识只是冰山一角,模型不仅要能理解文字,还要能看懂图片,听懂声音。

理解多模态模型,关键在于理解两种截然不同的架构:

  • 模块化架构(Modular):像是一位“戴着翻译眼镜的语言天才”。LLM 作为架构的核心,本身看不见图像,需要一个“翻译官”(即“连接器”)将图像信号转译成它能听懂的文本语言。
  • 原生多模态(Native):像是一位“天生拥有感官的母语者”。它在诞生之初,神经网络就同时发育出了视觉和语言中枢,所有信息共享同一套底层逻辑,端到端理解多模态信息。

本文将深入浅出地讲解这两种架构的工作原理。

一、两种架构的共同基石 —— 图像 Token 化

无论哪种架构,大模型处理信息的核心部件都是 Transformer。但 Transformer 只能处理离散的序列(Token),无法直接读取连续的像素。因此,第一步必须是图像的 Token 化

1. 与文本 Token 化的类比

在处理文本时,模型会将句子“我爱猫”切分为词元,即 Token :[我][爱][猫]。每个词元对应词表里的一串数字 ID,图像的 Token 化也是将图像转变为一串连续的 Token 序列 。

2. ViT:将图片切分为向量

ViT(Vision Transformer) ,一种将 Transformer 架构直接应用于计算机视觉任务的深度学习模型。工作原理:

  • 图像分块(Patch Partitioning):想象一张 224*224 像素的猫图ViT 会把它切成 14*14 = 196 个小方块(Patches),每个方块大小为 16*16 像素。
  • 展平(Flattening):每个方块包含 16*16 个像素点,每个像素有 RGB 三个颜色通道。我们将这些像素点排成一排,变成一个包含 768 个数字的长列表。
  • 线性投影(Linear Projection):这就像是一个“空间变换器”。模型通过矩阵乘法,将这 768 个原始数值压缩成一个更高维、语义更丰富的数学空间中(例如 1024 维的向量空间)的特征向量。

3. VQ-VAE:建立“视觉 Token 字典”

为了让图像更像语言,VQ-VAE(向量量化变分自编码器)引入了“码本”(Codebook)。 它预先定义了一本包含几万个“标准视觉符号”的字典。每个图像切片在线性投影后,模型会去字典里寻找最像它的那个符号,并用符号的编号(如 Token #502)来代替原始数据,实现真正的类文本“分词化(Tokenization)” :图片在数学形式上变得和文本词元一样。

二、模块化架构的工作原理

LLaVABLIP-2 为代表的架构,其核心逻辑是“组件拼接”。

1. 三位一体的协同工作流

这种模型由三个相互配合的组件构成:

  • 视觉编码器(眼睛):通常是 CLIP 模型。它负责把原始像素初步加工,提取出包含物体形状、颜色的原始视觉特征向量 ZZv
  • 连接器(翻译):它是唯一的“翻译”环节。在 LLaVA 中,它就是一个线性投影矩阵 W,负责把视觉特征向量 ZZv “投影”到 LLM 的空间,变成 “视觉 Token” Hv,这一步完成图像空间到文本空间的向量对齐,视觉 Token 在数学维度上与 LLM 的词表空间完全一致。
  • 语言模型(大脑):如 Llama。它接收这串 Hv 以及人类的文本指令,像处理普通文本一样,利用注意力机制(Attention)计算这些“视觉 Token”与“人类问题对应的“文本 Token”之间的逻辑联系,最终输出答案。

2. BLIP-2 架构的特别之处

BLIP-2 引入了 Q-Former 模块作为其“连接器”。

Q-Former 不再像 LLaVA 做全量视觉特征翻译,它的作用是解决信息瓶颈

它将海量的、分辨率无关的视觉特征压缩成固定长度的语义片段(如 32 个 Token),极大降低了后续 LLM 的计算压力 。

通过 32 个查询向量(Queries),去视觉特征里“提问”,它们像 32 个带着不同任务的专家,去图像中寻找答案,只寻找与当前文本最相关的视觉细节(如“图中猫是什么颜色?”、”背景是什么?“),Queries 会把上百万像素的冗余信息压缩成 32 个精华 Token 喂给 LLM,极大地减少了冗余信息的干扰。

3. 训练的两阶段:从“识字”到“对话”

  • 阶段一:特征对齐(对齐)。冻结“眼睛”和“大脑”,只训练“连接器”。目标是让模型学会“看图识字”,建立起图像向量与文字坐标的基本关联。
  • 阶段二:多模态监督微调(SFT)。解冻连接器和 LLM,喂给它例如由 GPT-4 模拟生成的、包含复杂逻辑的 Q&A 数据。此时,大脑才真正开始学习如何遵循指令观察图片细节,并学会在没见过的复杂环境下举一反三。

三、原生架构的工作原理

2024 年,GPT-4oEmu3Baichuan-omni 模型的诞生,标志着原生多模态(Native Multimodality)时代的到来。

在这种架构中,不再需要复杂的“连接器(翻译)”环节。

  1. 统一的神经网络:模型是跨模态端到端预训练的,所有模态在同一个神经网络里被处理,图像、文本甚至音频在模型诞生的第一天,就被混合在同一个 Transformer 序列中处理。这种“母语级”的融合意味着模型不再需要像模块化架构那样去“对齐”两个预训练好的空间,而是在生长过程中自发形成了多维感官的关联。
  2. Next-Token Prediction(预测下一个 Token):这是原生模型的核心信仰。在 Emu3 或 GPT-4o 看来,生成一段文本还是生成一个像素块,本质上都是预测序列中下一个 Token 出现的概率。这种高度的一致性让模型获得了类似人类的“感官直觉”。

四、举例讲解为什么模型能读懂一张图片

假设有这样一张图片:一个金发女孩,身穿粉色碎花百褶裙,手拿一杯冒热气的拿铁,站在写有“香榭丽舍”的路牌下。那么,模型是如何理解图片中的细节呢?

1. 传统模块化架构的工作流

  • 感知:视觉编码器提取出海量的像素特征(如碎花纹理、文字笔画)。
  • 转译:连接器将这些特征打包成 LLM 熟悉的向量。
  • 推理:LLM 接收这些向量,结合预训练中学到的知识,在大脑中将其“聚类”到对应的语义点:金色的向量 ≈ “发色”,碎花向量 ≈ “裙子款式”。
  • 位置与文字:利用位置编码识别物体坐标,通过对齐预训练识别出路牌笔画对应特定的地名词汇。
  1. 为什么能看清发型和款式?
  • LLaVA-1.5-HD 技术会将图片切成更细的网格。原本模糊的像素团块在放大后,展现出了发丝的波浪和裙子的褶皱 。通过大规模训练,模型内部已经建立起一种“聚类”:当这堆特定的纹理向量出现时,它在数学坐标上会精准地落向“波西米亚风”或“百褶裙”的语义区域。
  1. 为什么知道谁在前谁在后?
  • 在模块化架构(如 LLaVA)中,位置信息主要通过视觉编码器(ViT)的 1D 位置编码 提供 。而空间感(谁在前谁在后)的产生,更多归功于多模态指令微调阶段引入的包含 Bounding Box(边界框)的训练数据,让 LLM 学会了将特定的 Token ID 与画面坐标关联起来 。
  1. 为什么能读出路牌上的文字?
  • 早期的模块化模型(如 LLaVA v1.0)在预训练阶段通常是冻结 LLM 的,这会导致模型缺乏“上下文学习”能力 。现在的趋势(如 VILA 和 LLaVA-1.5)倾向于在预训练阶段就解冻 LLM,从而实现“深度对齐”,通过在图文交错语料中做预训练,LLM 的语言中枢会直接介入视觉理解 。当路牌上的字母线条被 Token 化后,它们的向量特征直接命中了词表里“香榭丽舍”对应的位置,实现了不依赖额外 OCR 插件的“天生识字”。

2. 原生端到端架构的工作流

  • 全能接收:模型通过 Vision Tokenizer 直接将“碎花裙女孩”和“路牌”转换成它熟悉的原生视觉 Token
  • 原生理解:它不再需要“翻译”,而是直接在同一个 Transformer 序列中计算。女孩的发色、拿铁的热气、甚至路牌上的字符,对模型来说就是它出生时就在学的“母语”。
  • 优势:因为没有翻译损耗,原生模型(如 GPT-4o)能以极低延迟理解图片中,如“拿铁冒出的热气”这种细节。

结语

真正的理解并不依赖于特定的感官,而是依赖于模型能否将异构的信息——无论是像素点、声波频率还是文字字符——都映射到同一套统一的数学语义空间中。

多模态大模型的终极目标,是消除模态之间的‘翻译感’,让 AI 能够像人类一样,产生对物理世界的‘直觉性理解’。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部