关闭广告

中国曾经也有一家“OpenAI”

虎嗅APP355人阅读


出品|虎嗅科技组

作者|宋思杭

编辑|苗正卿

头图|视觉中国

智源研究院,曾一度想走上那条OpenAI的路。

虎嗅获悉,2024年以前智源内部也讨论过——是否要成立一个类似OpenAI的商业化子公司。但犹豫再三,他们还是决定回到初心:继续做一家非营利的研究型机构。

就像如今的Anthropic之于OpenAI,智源也孵化出了一批从核心团队走出的创业者。唐杰、杨植麟、刘知远——他们都来自智源“悟道”系列项目的核心成员;后来在2019年、2022年和2023年先后创办了大模型公司。其中,智谱AI(创始人唐杰)与月之暗面(创始人杨植麟)如今的估值均已在300亿元人民币上下。

换句话说,智源虽不直接下场,却成为了大模型六小龙背后持续的力量。“让有商业化想法的同学去创业、智源提供学术与资源支持”智源研究院院长王仲远告诉虎嗅。而这种“成果孵化”的理念,也早已内化为智源的制度逻辑。

不过,王仲远并非“悟道”时代的人物。他在2024年加入智源——那是“悟道”系列已暂告一段落的节点。此后,他提出了新的研究方向:“悟界”。其中,“悟道”与“悟界”的区别就在于,前者是大语言模型,而后者是多模态系列模型。

在王仲远看来,大语言模型的技术路径已经收敛,而多模态模型的路线仍未确定。他希望智源能在这个尚未被定义的领域里,找到属于多模态时代的Scaling Law。

就在今年10月,智源发布了EMU3.5世界模型。王仲远称,它已“具备Scaling范式的潜力”。

然而,值得注意的是,本次的世界模型之所以叫3.5而不是4,正因为这只是通向Scaling Law的半步,离真正的“Aha Moment”仍有距离。

成立七年来,智源经历了从“悟道”到“悟界”的两次跃迁,它既是中国AI体系的底座之一,也是中国大模型公司的“原点坐标”。但在这个越来越功利的AI时代,智源仍选择保持一种非营利的倔强,它选择继续做那家“站在背后”的研究机构,尽管这意味着会被更有资源的商业化公司所超越。

以下为虎嗅与智源研究院院长王仲远的对话实录,有删减:


智源拒绝做OpenAI

虎嗅:你2024年加入智源,在这之后智源都发生了哪些变化?

王仲远:我先介绍下个人背景。我职业生涯前半段在研究机构,后半段在产业界,既经历了学术体系的严谨,也经历了企业竞争的复杂。

2000年代初,我进入微软亚洲研究院,在那里做了六年多研究,后来我去了美国,在Facebook工作。那次转型对我非常关键——从纯研究走向产业落地。

为什么会做出这样的转变?一方面是因为2012年深度学习进入产业化阶段,AI1.0的研究瓶颈基本被突破,产业界开始真正需要AI技术解决实际问题。另一方面,当时我也感受到微软在移动互联网时代的转型不够成功,我希望能在一家更具创新精神的互联网公司工作,于是去了Facebook。

从那之后,我的职业轨迹完全转向产业——先后在Facebook、美团、快手分别待了几年。在美团我汇报给王慧文,也是在那段时间里第一次真正理解“技术、产品与商业战略”之间的关系。那时我组建了最早一批做AI与大模型的团队,后来其中不少人都成为了各公司大模型的核心技术负责人。

后来我加入快手,负责约两千人的团队,也负责过超两百亿预算的业务。但与此同时我也意识到,做业务意味着背业绩指标,留给技术创新的空间会越来越小。而彼时AI进入了一个新的阶段——从深度学习过渡到大模型的AI2.0时代。我开始意识到,大模型的出现不仅是技术演进,更是一次类似电力或互联网级别的产业革命。

那时我就反思:如果未来二三十年都是AI驱动的时代,我希望自己能站在研究与创新的一线。

于是2024年我决定加入智源。智源的愿景非常纯粹——成为人工智能创新的引领者,营造一个开放、开源的生态,让技术真正造福全社会。这种非营利、长期主义的科研机制,对我来说非常有吸引力。

我也一直认为,中国的AI研究机构要敢于做“高校做不了、企业不愿做”的事。比如现在多模态模型的技术路线仍未收敛,未来能否找到新的Scaling范式,是值得长期投入的方向。这就是智源要承担的角色。

虎嗅:你刚刚提到,自己过去在微软、美团、Facebook等公司,以及现在的智源研究院,周围都有非常高密度的人才。你认为,这类组织有什么共同特征?

王仲远:真正人才密度高的组织,往往都有一个共性:使命愿景驱动、价值观一致。

早期的OpenAI之所以能聚集那么多顶尖研究者,是因为他们最初的目标极为宏大——希望推动通用人工智能的发展,并让它造福人类社会。正是这种共同的理念,把一群志同道合的科学家聚拢在了一起。

当然,随着OpenAI的发展,它也逐渐商业化,这本身是行业规律。但我们不能忽视的是,它早期确实是靠使命和信仰凝聚起的。

智源也一样。虽然我们是一家非营利机构,但我们能吸引到很多放弃大厂“Special Offer”的年轻研究员,原因就在于,他们认同智源的科研信仰与长远使命。

在企业里,他们可能很快要服务业务、跟着短期指标走;但在智源,他们能真正投入到有长期科研价值、甚至能影响未来AI技术路线的研究中去。

这种吸引力,本身就是一种筛选机制。它筛掉了只追求物质回报的人,留下了对技术和科研有信仰的一群人。这样的人聚在一起,战斗力往往非常强。

虎嗅:智源也孵化出了像智谱、月之暗面这样估值数百亿的创业公司。你是如何保证智源在支持创新的同时,不走上OpenAI那种越来越商业化的道路?

王仲远:这是一个非常好的问题。首先要承认,两者的社会环境不同。智源从成立那天起就是非营利性机构,今年已经七周年了。七年来,这种模式在中国的AI体系中证明了自己的先进性与可持续性。

我们内部确实讨论过要不要设立商业化部门,或者学习OpenAI的“双实体”模式。但最后大家一致决定——坚持智源的模式,保持非营利的纯粹性。

我们形成了自己的“智源模式”:在科研上布局前瞻的技术路线,比如探索多模态世界模型、具身智能这些尚未收敛的方向;

在机制上允许年轻人“挑大梁”,甚至去外部创业。智源会提供支持,但不直接下场做企业;再来就是开源开放链接全球生态。

我们也建立了一个科研—孵化—成果转化的闭环体系。智源通过早期孵化、后期股权退出等方式,获得一定的造血能力,从而维持研究的长期独立性。

但这套机制的出发点从不是盈利,而是让我们更纯粹地去做科研。

虎嗅:也就是说,智源在内部鼓励年轻人创业?

王仲远:是的,我们明确鼓励。智源的“开源开放”理念体现在各个层面:我们做开源研究、开放合作、开放流动。我们的模型(比如Emu3.5)敢于完全开源;我们的科研人员可以自由流动,去企业、去创业,只要他们能延续这条技术路线。这种灵活性反而能保持整个机构的生命力。

如果有一天,别人沿着智源开源的技术路线,做出了更好的模型,我们会非常开心。因为那意味着我们真正起到了“科研引领”的作用——这也是智源存在的意义。


多模态的“Scaling”时刻

虎嗅:回到“悟界”系列。你说Emu3和3.5都是为了未来的多模态和具身智能做准备。多模态主要依赖公开视频、网络数据,而具身智能更依赖真实的物理世界数据,这两者在底层是相通的吗?

王仲远:这是一个特别关键的问题。首先,我们要厘清什么是具身智能。过去一年多我最大的感受是——不同领域对“具身智能”的理解完全不同。

做AI大模型的人会认为,具身智能就是把一个“大脑”装进机器人身体;而传统做机器人或强化学习的人,会把“具身智能”理解为让机器人能站稳、能抓取、能跳舞的端到端控制系统。

但在我们看来,那些都是“小数据”。即便你有几百台机器人采数据,从大模型角度看,依然远远不够。这些数据只够做局部的适配或迁移学习,不足以支撑智能的真正涌现。

所以我们提出要回到第一性原理。

人类之所以拥有智能,是因为我们通过视觉、听觉、语言等多模态的长期学习,形成了对世界的理解——也就是“世界模型”。从婴儿时期开始,人不是先从文本学习的,而是通过看世界、听声音、与人互动,逐渐构建了空间、时间和因果的理解。

这就是我们在Emu3.5里想模拟的过程。

它并非简单地在大语言模型上叠加图像或视频输入,而是试图像人类一样“从多模态感知中学习”。

我们用了海量的视频数据进行训练,让模型在视觉、语言、时间、空间等多维度上联合学习。实验结果表明,随着数据量的增加,模型的多模态理解能力显著提升,尤其在图像文字编辑等任务上,性能明显超越了现有模型。

这证明了我们的假设:真正的智能,需要回到人类学习的路径。

语言和文字固然重要,但人类并不是从语言开始学习的。现有多模态模型“先语言、后映射”的路线,也许只是一个“短平快”的解决方案,却未必是通往通用智能的最终路径。

Emu3.5的贡献在于,它用第一性原理的方法论,走出了一条新的多模态学习路线。我们发现,当模型在视频序列中学习时间与空间关系后,它的智能水平不降反升,这种“涌现效应”说明我们可能找到了更接近人类认知的路径。

虎嗅:你刚刚提到一个关键点——“Scaling范式”。能否解释一下,EMU3.5现在处在什么阶段?距离真正的“Scaling Law时刻”还差多远?

王仲远:我们把模型命名为“Emu3.5”,而不是“Emu4”,其实正是因为它还在通往“Scaling Law”的途中。

目前Emu3.5的参数量大约在三百多亿级别,相比语言模型的发展阶段,大致相当于GPT-3.5之前的水平。我们认为它已经接近多模态领域的“ChatGPT时刻”——也就是那种从研究模型过渡到可产品化模型的阶段。

但要真正达到“Scaling Law”,还需要更大的数据规模和算力支持。现在我们用的视频数据只占全网的不到1%,参数量也远未达到上限。如果有十倍的算力和资源,我们相信能训练出下一代模型。

只是,这可能更适合企业或资本参与推动。科研机构的角色,是验证这条路线是否可行——而我们已经验证了。

严格来说,我们现在找到的是“Scaling范式”,还未上升到“Scaling Law”。

后者需要数学公式去证明数据量、参数量与性能提升之间的定量关系;我们目前看到的是明确的正相关,但还没把它形式化。

不论叫什么,它意味着一件事:我们相信多模态模型已经出现了可持续的Scaling趋势。

虎嗅:那在你加入智源之后,从EMU3到EMU3.5用了整整一年,这个进度是在预期之内的吗?

王仲远:其实我们没有设定明确的时间表。

实际上,模型在今年八月份左右就展现出很好的效果,我们对它也非常有信心。

从去年10月的Emu3到现在的3.5,我们花了大量时间解决核心技术问题——包括自回归架构的误差累积、视觉token的表达方式、大规模视频数据的构造与配比等。这些问题看似细节,但每一个都影响模型的稳定性和智能水平。

本文来自虎嗅,原文链接:https://www.huxiu.com/article/4805814.html?f=wyxwapp

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

瑞信被"5折"收购 压力来到美国这家银行!

每日经济新闻 浏览 13958

宁波网友投诉到理发店理发被诱导消费:1次花了6万元

潇湘晨报 浏览 2794

中国使出大招 全世界嘲笑美:终于中国出来收拾美国了

南宫一二 浏览 3986

卡内基梅隆大学团队揭秘:AI绘画无需人工标注也能学会"听话"

科技行者 浏览 516

基里安·墨菲凭《奥本海默》获奥斯卡最佳男主角

网易娱乐 浏览 10384

孙怡自曝想上《再见爱人3》 直白发言引复合猜测

盖饭娱乐官方号 浏览 15304

女子遭家暴驾车逃跑致丈夫身亡获刑11年 已上诉称无罪

红星新闻 浏览 2405

再接再厉!杨瀚森表现全面 全场贡献8分10篮板7助攻6盖帽!

直播吧 浏览 15542

1万多买的老马6,用着怎么样?

萝卜报告 浏览 9427

钱志敏突然当庭认罪震动旁听席 刑期或减免三分之一

封面新闻 浏览 2440

章子怡露面下巴长到变形,踩10cm恨天高险站不稳

叶公子 浏览 13620

伊姐十一热推:电影《江南:在爱开始的地方等你》;电视剧《围猎》......

伊周潮流 浏览 810

格列兹曼:媒体曾报道梅西对我不满,但比赛中他主动让点给我

懂球帝 浏览 844

中国小伙赴越南"赚快钱"失联 疑遭拐卖刺伤司机后被捕

封面新闻 浏览 1072

欧盟和美国计划对中国产电动车征收更严厉关税

盖世汽车 浏览 10917

鸿蒙座舱 华为智驾 三腔空悬 岚图泰山18号将上市

沙雕小琳琳 浏览 474

AI如何助力空调“降温”过程中更节能,珠海这场论坛揭秘

南方都市报 浏览 771

井柏然刘雯在机场高调同框 飞东京旅行外形太般配

八怪娱 浏览 13183

科技巨头AI竞赛转向表外融资,万亿债务定时炸弹成危机前兆?

华尔街见闻官方 浏览 527

31岁女护士提分手遭男友割喉 生前日记称像活在地狱中

中国新闻周刊 浏览 2227

赛力斯今日登陆香港主板 成首家“A+H股”新能源车企

上游新闻 浏览 509
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1