多模态大模型工作原理

多模态大模型（MLLM）已经成为必然的发展趋势，文字里的信息和知识只是冰山一角，模型不仅要能理解文字，还要能看懂图片，听懂声音。

理解多模态模型，关键在于理解两种截然不同的架构：

模块化架构（Modular）：像是一位“戴着翻译眼镜的语言天才”。LLM 作为架构的核心，本身看不见图像，需要一个“翻译官”（即“连接器”）将图像信号转译成它能听懂的文本语言。
原生多模态（Native）：像是一位“天生拥有感官的母语者”。它在诞生之初，神经网络就同时发育出了视觉和语言中枢，所有信息共享同一套底层逻辑，端到端理解多模态信息。

本文将深入浅出地讲解这两种架构的工作原理。

一、两种架构的共同基石 —— 图像 Token 化

无论哪种架构，大模型处理信息的核心部件都是 Transformer。但 Transformer 只能处理离散的序列（Token），无法直接读取连续的像素。因此，第一步必须是图像的 Token 化。

1. 与文本 Token 化的类比

在处理文本时，模型会将句子“我爱猫”切分为词元，即 Token ：[我]、[爱]、[猫]。每个词元对应词表里的一串数字 ID，图像的 Token 化也是将图像转变为一串连续的 Token 序列。

2. ViT：将图片切分为向量

ViT（Vision Transformer） ，一种将 Transformer 架构直接应用于计算机视觉任务的深度学习模型。工作原理：

图像分块（Patch Partitioning）：想象一张 224*224 像素的猫图。ViT 会把它切成 14*14 = 196 个小方块（Patches），每个方块大小为 16*16 像素。
展平（Flattening）：每个方块包含 16*16 个像素点，每个像素有 RGB 三个颜色通道。我们将这些像素点排成一排，变成一个包含 768 个数字的长列表。
线性投影（Linear Projection）：这就像是一个“空间变换器”。模型通过矩阵乘法，将这 768 个原始数值压缩成一个更高维、语义更丰富的数学空间中（例如 1024 维的向量空间）的特征向量。

3. VQ-VAE：建立“视觉 Token 字典”

为了让图像更像语言，VQ-VAE（向量量化变分自编码器）引入了“码本”（Codebook）。它预先定义了一本包含几万个“标准视觉符号”的字典。每个图像切片在线性投影后，模型会去字典里寻找最像它的那个符号，并用符号的编号（如 Token #502）来代替原始数据，实现真正的类文本“分词化（Tokenization）” ：图片在数学形式上变得和文本词元一样。

二、模块化架构的工作原理

以 LLaVA 和 BLIP-2 为代表的架构，其核心逻辑是“组件拼接”。

1. 三位一体的协同工作流

这种模型由三个相互配合的组件构成：

视觉编码器（眼睛）：通常是 CLIP 模型。它负责把原始像素初步加工，提取出包含物体形状、颜色的原始视觉特征向量 $Z$ _v。
连接器（翻译）：它是唯一的“翻译”环节。在 LLaVA 中，它就是一个线性投影矩阵 W，负责把视觉特征向量 $Z$ _v “投影”到 LLM 的空间，变成 “视觉 Token” H_v，这一步完成图像空间到文本空间的向量对齐，视觉 Token 在数学维度上与 LLM 的词表空间完全一致。
语言模型（大脑）：如 Llama。它接收这串 H_v 以及人类的文本指令，像处理普通文本一样，利用注意力机制（Attention）计算这些“视觉 Token”与“人类问题对应的“文本 Token”之间的逻辑联系，最终输出答案。

2. BLIP-2 架构的特别之处

BLIP-2 引入了 Q-Former 模块作为其“连接器”。

Q-Former 不再像 LLaVA 做全量视觉特征翻译，它的作用是解决信息瓶颈。

它将海量的、分辨率无关的视觉特征压缩成固定长度的语义片段（如 32 个 Token），极大降低了后续 LLM 的计算压力。

通过 32 个查询向量（Queries），去视觉特征里“提问”，它们像 32 个带着不同任务的专家，去图像中寻找答案，只寻找与当前文本最相关的视觉细节（如“图中猫是什么颜色？”、”背景是什么？“），Queries 会把上百万像素的冗余信息压缩成 32 个精华 Token 喂给 LLM，极大地减少了冗余信息的干扰。

3. 训练的两阶段：从“识字”到“对话”

阶段一：特征对齐（对齐）。冻结“眼睛”和“大脑”，只训练“连接器”。目标是让模型学会“看图识字”，建立起图像向量与文字坐标的基本关联。
阶段二：多模态监督微调（SFT）。解冻连接器和 LLM，喂给它例如由 GPT-4 模拟生成的、包含复杂逻辑的 Q&A 数据。此时，大脑才真正开始学习如何遵循指令观察图片细节，并学会在没见过的复杂环境下举一反三。

三、原生架构的工作原理

2024 年，GPT-4o、Emu3 和 Baichuan-omni 模型的诞生，标志着原生多模态（Native Multimodality）时代的到来。

在这种架构中，不再需要复杂的“连接器（翻译）”环节。

统一的神经网络：模型是跨模态端到端预训练的，所有模态在同一个神经网络里被处理，图像、文本甚至音频在模型诞生的第一天，就被混合在同一个 Transformer 序列中处理。这种“母语级”的融合意味着模型不再需要像模块化架构那样去“对齐”两个预训练好的空间，而是在生长过程中自发形成了多维感官的关联。
Next-Token Prediction（预测下一个 Token）：这是原生模型的核心信仰。在 Emu3 或 GPT-4o 看来，生成一段文本还是生成一个像素块，本质上都是预测序列中下一个 Token 出现的概率。这种高度的一致性让模型获得了类似人类的“感官直觉”。

四、举例讲解为什么模型能读懂一张图片

假设有这样一张图片：一个金发女孩，身穿粉色碎花百褶裙，手拿一杯冒热气的拿铁，站在写有“香榭丽舍”的路牌下。那么，模型是如何理解图片中的细节呢？

1. 传统模块化架构的工作流

感知：视觉编码器提取出海量的像素特征（如碎花纹理、文字笔画）。
转译：连接器将这些特征打包成 LLM 熟悉的向量。
推理：LLM 接收这些向量，结合预训练中学到的知识，在大脑中将其“聚类”到对应的语义点：金色的向量 ≈ “发色”，碎花向量 ≈ “裙子款式”。
位置与文字：利用位置编码识别物体坐标，通过对齐预训练识别出路牌笔画对应特定的地名词汇。

为什么能看清发型和款式？

LLaVA-1.5-HD 技术会将图片切成更细的网格。原本模糊的像素团块在放大后，展现出了发丝的波浪和裙子的褶皱。通过大规模训练，模型内部已经建立起一种“聚类”：当这堆特定的纹理向量出现时，它在数学坐标上会精准地落向“波西米亚风”或“百褶裙”的语义区域。

为什么知道谁在前谁在后？

在模块化架构（如 LLaVA）中，位置信息主要通过视觉编码器（ViT）的 1D 位置编码 提供。而空间感（谁在前谁在后）的产生，更多归功于多模态指令微调阶段引入的包含 Bounding Box（边界框）的训练数据，让 LLM 学会了将特定的 Token ID 与画面坐标关联起来。

为什么能读出路牌上的文字？

早期的模块化模型（如 LLaVA v1.0）在预训练阶段通常是冻结 LLM 的，这会导致模型缺乏“上下文学习”能力。现在的趋势（如 VILA 和 LLaVA-1.5）倾向于在预训练阶段就解冻 LLM，从而实现“深度对齐”，通过在图文交错语料中做预训练，LLM 的语言中枢会直接介入视觉理解。当路牌上的字母线条被 Token 化后，它们的向量特征直接命中了词表里“香榭丽舍”对应的位置，实现了不依赖额外 OCR 插件的“天生识字”。

2. 原生端到端架构的工作流

全能接收：模型通过 Vision Tokenizer 直接将“碎花裙女孩”和“路牌”转换成它熟悉的原生视觉 Token。
原生理解：它不再需要“翻译”，而是直接在同一个 Transformer 序列中计算。女孩的发色、拿铁的热气、甚至路牌上的字符，对模型来说就是它出生时就在学的“母语”。
优势：因为没有翻译损耗，原生模型（如 GPT-4o）能以极低延迟理解图片中，如“拿铁冒出的热气”这种细节。

结语

真正的理解并不依赖于特定的感官，而是依赖于模型能否将异构的信息——无论是像素点、声波频率还是文字字符——都映射到同一套统一的数学语义空间中。

多模态大模型的终极目标，是消除模态之间的‘翻译感’，让 AI 能够像人类一样，产生对物理世界的‘直觉性理解’。