趣看热点

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO，试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题：如果不依赖预训练的视觉编码器，能否构建出与顶级模块化 VLM 相媲美的原生统一架构？

图丨相关论文（来源：arXiv）

在传统方法中，视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型，这些编码器虽然在视觉理解上表现出色，但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是，视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系，后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂，还需要大量的对齐数据来弥合两个模态之间的鸿沟。

原生 VLM 的探索并非由 NEO 首创。早期的 Fuyu、EVE 就开启了这条路，但它们所面临的一个重要问题是：如何在语言模型内部高效构建视觉表征？这个过程往往效率低下、训练不稳定，甚至会破坏原有的语言能力。后续研究尝试用知识蒸馏、混合训练数据或专家系统来缓解，但始终未能触及核心问题。NEO 的团队认为，问题的根源在于没有从根本上为多模态重新设计模型的基础组件。

NEO 团队的方案是构建一个统一的原生基元（Native VLM Primitive），这个基元同时具备视觉编码、跨模态对齐和多模态推理的能力。具体而言，NEO 引入了三项关键创新：多头原生注意力（Multi-Head Native Attention, MHNA）、原生旋转位置编码（Native Rotary Position Embeddings, Native-RoPE）以及 Pre-Buffer 和 Post-LLM 的两阶段架构设计。

图丨原生视觉-语言框架概览（来源：arXiv）

在注意力机制的设计上，NEO 采用了一种混合策略。对于图像 token，模型使用双向注意力，允许每个视觉 token 与图像中的所有其他 token 进行交互，这保留了视觉编码器捕捉全局空间关系的能力。而对于文本 token，则沿用传统的因果注意力，确保自回归生成的有效性。这种“帧级双向、词级因果”的混合注意力机制，让 NEO 能够在同一个统一架构中同时处理视觉的全局理解和语言的序列生成。

位置编码是 NEO 的另一个创新点。传统 VLM 在处理图像和文本时，往往简单地将预训练 LLM 的一维旋转位置编码（Rotary Position Embeddings, RoPE）扩展到二维或三维空间，但这种做法会破坏 LLM 原有的建模模式，损害其语言能力。NEO 采用的 Native-RoPE 则完全解耦了时间（T）、高度（H）和宽度（W）三个维度的索引和频率分配。

图丨NEO 框架（来源：arXiv）

对于文本，模型保持原有的时间维度索引，而将高度和宽度维度的索引置零；对于图像，每个视觉 token 拥有固定的时间索引和独特的空间坐标。这种设计不仅保持了与预训练 LLM 的兼容性，还能更好地捕捉图像中的局部语义依赖关系。

在训练策略上，NEO 采用了 Pre-Buffer 和 Post-LLM 的分离式预训练。Pre-Buffer 负责从头学习视觉感知，而 Post-LLM 则继承预训练 LLM 的强大语言能力和推理能力。在预训练阶段，Post-LLM 的参数被冻结，仅训练 Pre-Buffer 和新增的 Query-Key 头维度及归一化层。

这种设计既保护了 LLM 的语言知识不被低质量的图像-文本对破坏，又允许 Pre-Buffer 在大规模视觉数据上进行充分的学习。到了中期训练和监督微调阶段，Pre-Buffer 和 Post-LLM 被合并为一个统一的单体架构，模型能够自主地在编码、对齐和推理之间分配计算资源。

此外，Pre-Buffer 本身具有可复用性。这个经过大规模视觉数据预训练的模块可以作为开源资源，帮助后续研究者以更低的成本将新的 LLM 适配为 VLM。

值得注意的是，NEO 在训练效率上展现出令人惊讶的表现。整个预训练阶段仅使用了 3.45 亿图文对，这个数据规模远小于主流模块化 VLM 动辄数十亿的训练数据。在中期训练阶段，NEO 使用 4000 万样本进行视觉-语言对齐的强化；监督微调阶段则使用约 400 万条高质量指令数据。总计不到 4 亿的训练样本，NEO-2.2B 和 NEO-9B 两个版本就达到了与顶级模块化 VLM 相当的性能水平。

图丨与其他模块化和原生 VLM 的基准测试比较（来源：arXiv）

在多项标准评估基准上，NEO 的表现出色。在 MMMU（多学科多模态理解与推理）测试中，NEO-2.2B 获得了 48.6 分，超过了 InternVL2.5（43.6 分）和 HoVLE（32.2 分）等原生 VLM 竞品。

在文档理解任务如 AI2D 和 DocVQA 上，NEO-2.2B 分别达到 80.1 分和 89.9 分，接近甚至超过了一些采用强化学习的模块化模型。更大的 NEO-9B 版本在多个基准上的表现更加出色，在 MMBench 上获得 82.1 分，在 AI2D 上达到 83.1 分，与使用数十亿训练数据的 Qwen2-VL 和 InternVL2.5 处于同一竞争梯队。

当然，NEO 也还存在一些局限性。在知识密集型和 OCR（光学字符识别）重度任务上，如 MMMU、InfoVQA 和 TextVQA 等测试中，NEO 的表现相对落后。NEO-9B 在某些 OCR 任务如 DocVQA 和 InfoVQA 上的表现甚至不如 NEO-2.2B，这表明当前的训练语料库在这些特定领域可能存在不足。

研究团队在论文中表示，这些局限性主要源于训练数据的规模和质量限制，而非架构本身的问题。如果能够获得更大规模、更高质量的训练数据，NEO 的潜力还有很大的提升空间。

参考资料：

1.https://arxiv.org/pdf/2510.14979v1

2.https://github.com/EvolvingLMMs-Lab/NEO

运营/排版：何晨龙

高效训练新标杆！华人开源原生VLM-NEO，以少数据追平顶级模型

《逍遥》结局...

本轮欧冠仅国...

今年冬天流行...

E句话| 他...

男团奋勇剑指...

特朗普调侃让...

手机租赁平台＂青云租＂疑爆雷女子9万上车被反套35万

AI赋能体育教育新图景：构建中小学智慧体育新生态

日本拟引进乌无人机其防卫预算首次突破9万亿日元

为了万亿美元薪酬！马斯克取消FSD买断制，但不适合中国国情？

不必悲观！券商发声：相比4月，预计冲击更小！

前后双红枫！华为的又一把“杀手锏”

表现不稳，世体：巴萨对巴尔德和孔德当前展现的水平感到担忧

媒体：一天内两个危险举动再度揭示了日本的危险性

反击美国＂变脸＂普京即将公布神秘新武器专家分析

美联储报告：政策不确定性成头号金融稳定风险，央行独立性首次被点名，关注金融杠杆

同比增长89.61% 鸿蒙智行11月交付新车81864台

萨莫拉诺：巴萨必须引导好亚马尔，从没听过梅西说皇马偷窃

鲁本-迪亚斯：经验告诉我们，如果不在最佳状态就无法夺冠

伊姐周日热推：电视剧《声渊》；电视剧《绝境通缉令》......

章泽天播客表现大翻车！采访接不上话脑袋空空，学霸人设遭质疑

博主：此前杨瀚森屡屡被DNP时，很多当地球迷都要求退季票

散户转移战场、交易量枯竭：加密行业的“静默调整期”

罗体：萨里向洛蒂托要求在一月引进一名高水平中场球员

“躺赚”的企查查，是个苦生意？

日产卖楼关厂裁员，断臂求生

男子犯病救命药滞留酒店前台5个小时后死亡酒店回应

每体：加维可能随巴萨前往沙特，为参加西超杯队友加油助威

梦天家居紧急刹车

茅台镇一酒厂91吨基酒拍卖，仅1人报名，评估价548万，以373万元成交