关闭广告

谷歌IMO金牌级Gemini 3深夜上线!华人大神挂帅,OpenAI无力反击

新智元1906人阅读


新智元报道

编辑:桃子 好困

【新智元导读】Gemini 3 Deep Think用2.5倍的暴力性能把GPT-5.1踩在脚下,OpenAI若再不发新模型,这「推理之王」的宝座今天就正式换人了!

太劲爆了!

不过半月,谷歌DeepMind终于放出了IMO最强金牌模型——Gemini 3 Deep Think。


今年夏天,Gemini 2.5 Deep Think分别在IMO、ICPC国际大赛中,拿下了金牌的战绩。

这一次,谷歌为其注入了全新的血液——Gemini 3。

凭借着「并行思考」能力,Gemini 3 Deep Think可以搞定超高难度的数学、科学难题!

在基准测试中,Deep Think全面碾压Gemini 3 Pro,尤其是在HLE上,未用工具拿下了41%高分。

同时在ARC-AGI-2上,以45.1%成绩领跑全球。


下面实例中,同一个指令,让Gemini 3 Pro和Deep Think版基于一张博物馆展馆屋顶的草图,创建一个精确的交互式3D场景。

显然,后者在还原度上,与原图几乎是1:1复刻,并在交互上,光影变化符合物理逻辑。


今天,Gemini 3 Deep Think已在Gemini App上线,所有Ultra用户即可体验。


最强IMO金牌模型来了

Gemini 3 Deep Think正式开启了「深度思考」新纪元,让智能的边界再次拓展。

Gemini 3 Deep Think基于上一代Gemini 2.5 Deep Think迭代而来,在推理能力上实现了质的飞跃。

它专门用于攻克那些连当今最顶尖模型,都感到棘手的复杂数学、科学和逻辑难题。


在多项基准测试中,Gemini 3 Deep Think都拿下了行业领先成绩。

在Humanity’s Last Exam(无工具辅助)上刷爆41%,并在ARC-AGI-2(配合代码执行),创下45.1%新纪录。


在ARC-AGI-1和ARC-AGI-2上,Gemini 3 Deep Think实力堪称无「模」能敌。



左右滑动查看

之所以这么强,是因为Deep Think采用了「并行推理」来同时思考,能够同时探索多种假设。

在谷歌DeepMind放出的更多demo中,可以看出Gemini 3 Deep Think强大之处。

如下,让它打造一款3D版多米诺骨牌游戏。在关卡设置中,Deep Think兼具创意与惊喜,而且还模拟出了真实的碰撞物理效果。


这个例子,是要求Gemini 3 Pro和Deep Think分别在单个HTML文件中创建程序化生成的地球类行星。

左右对比一眼即可看出,Deep Think更加有创造力。


另有开发者实测惊叹道,Gemini 3 Deep Think具备惊人的能力。


上传一张玻璃瓶的照片,让它生成一个软橡胶同款掉在地上的3D动画。


有网友激动地表示,按照这个速度,我们将在2026年真正实现AGI!


华人科学家领衔,AGI王牌队冲刺

同在今天,谷歌DeepMind官宣,将在新加坡组建一支全新的精英团队。

它将由华人科学家Yi Tay率队,专攻高级推理、LLM/RL,以及推进Gemini、Gemini Deep Think等最前沿SOTA模型的发展。

Yi Tay将向位于山景城由Quoc Le(谷歌Fellow级大佬)领导的团队汇报。

恰好,这一团队正是Gemini Deep Think在国际竞赛中夺下金牌的核心力量之一,同时也在Gemini上取得重要进展。


Yi Tay表示,我们会从一支人不多但超强的小团队开始。

因为在大模型的时代,「人才密度」比什么都关键。

关键是,这个团队还能与AI领域传奇大神联动研究,其中就包括「推理之王」Denny Zhou、「香蕉」背后的男人Mostafa Dehghani、AI界的「GOAT」Noam Shazeer。

同时,还有很多「神仙队友」一起加入研究,包括生成式检索的发明人Vinh Q. Tran、IMO金牌项目总负责人Thang Luong、思维链开创者Xuezhi、日本顶尖AI大神Shane Gu等人。

过去几个月,谷歌DeepMind便开始秘密招募全球顶尖人才。

这一项目得到了Demis Hassabis、Jeff Dean等内部高层的大力支持。



如今,他们继续发出英雄招募帖,有机会站上通往AGI的关键赛道。

用不了多久,这支新加坡团队很快就会成为一支战斗力爆表的队伍。


Gemini 3爆冲15%流量

随着Gemini 3 Pro的强势发布,其网页端的市占率再创新高,突破15%大关。

与此同时,Grok也凭借着4.1版本的发布持续增长。

ChatGPT在流量上依然断崖式领先,但份额却在持续下降。



Gemini延续增长势头,访问量达到13.51亿次,较10月增长14.3%。ChatGPT跌破60亿次大关,网站访问量降至58.44亿次。

这是继7月之后,ChatGPT 在 2025 年出现的第二次环比下滑。


尽管在11月18日(Cloudflare宕机当天),ChatGPT创下了单日2.33亿次访问的历史纪录,但这并未扭转整体流量的跌势。

此外,Grok网站访问量达到2.344亿次,创下历史新高,较10月增长14.7%。

这也是该网站自启用当前域名以来,首次实现连续两个月的流量增长。




左右滑动查看

参考资料:

https://x.com/GoogleDeepMind/status/1996658401233842624?s=20

https://x.com/YiTayML/status/1996640869584445882?s=20

https://x.com/Similarweb/status/1995792272785310186

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

欧洲高颜值王室访华:曾与高中老师结婚 二婚嫁入王室

上游新闻 浏览 8525

郭芙蓉自由了,我却还留在同福客栈

时尚COSMO 浏览 1721

不管在什么地方 你都是那样拉轰的男人

星球商业评论 浏览 2247

2号种子险爆冷!张本智和打满5局逆转日本悍将,8强战约战勒布伦

乒谈 浏览 2254

伊姐周日热推:电视剧《凤凰台上》;电视剧《亲爱的X》......

伊周潮流 浏览 2086

哈马斯呼吁落实加沙停火协议 要求确保拉法口岸双向开放

极目新闻 浏览 1894

郑丽文上任3天《人民日报》发文促统 郑丽文判断没错

时时有聊 浏览 8965

A股特高压拉升!AI算力引爆电力刚需,巨头订单排至2027年

览富财经网 浏览 1435

又一个明星被骂到退网,谁赢了?

独立鱼 浏览 2264

姚晨回应即将到期“赎身”!真是弹指一挥间...

犀利辣椒 浏览 1916

李在明"火速"官宣造访日本 中方立规矩高市早苗失算了

博览历史 浏览 6051

足球报:曾有公司有意收购广西平果,但因欠账问题方面没谈拢

懂球帝 浏览 1866

安东尼:我们会就我的红牌上诉,裁判也知道我的动作没有恶意

懂球帝 浏览 1922

特朗普为美军袭击委内瑞拉附近海域“贩毒船”辩护

环球网资讯 浏览 2535

Snap联手多所高校突破:静态模型实现动态化动画生成

科技行者 浏览 1561

热议中超:恶心国安放水,西海岸和英博值得尊重

懂球帝 浏览 2423

火速认错!孙怡驾驶法拉利跑车违规

今古深日报 浏览 1643

董子健带女儿现身公园玩 父女俩一见面就乐开花儿

翰林涛涛 浏览 2558

为内卷止损,为长钱布局!2026两会为金融发展划重点

独角金融 浏览 972

山东99-75宁波3喜1忧!高诗岩陈林坚太关键,王证神射,2外出隐患

篮球资讯达人 浏览 1458

今年一定要拥有这件“爆火单品”,让你美出新高度

LinkFashion 浏览 1993
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1