11月18日,Gemini 3在多项权威基准测试中表现惊艳,以“世界最强多模态理解”“交互最深智能体”“推理怪兽”的姿态,全面超越全球同类模型。谷歌CEO桑达尔·皮查伊亲自为其站台,称其为“迄今为止最智能的模型”。这一消息在AI圈引发轰动,人们纷纷探究其背后的技术秘诀。 Google DeepMind研究与深度学习副总裁Oriol Vinyals在推特上透露,Gemini ...
在代码大模型(Code ...
OpenAI研究员Clive Chan表示,拥抱scaling law,看看最先进的量化方案(mxfp,Pw≠Pkv≠Pa等)如何推进前沿将会很有趣。另外,我个人认为,值得花费一半的计算预算来进行一次大规模运行,以验证这个拟合是否适用于大模型。
在2.7B参数和3000亿tokens规模上验证一个仅包含6个注意力块(和58个SSD块)的混合模型后可以发现,其表现优于64个SSD块以及标准的Transformer++基线模型(32个门控MLP和32个注意力块)。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果