2025年的最后一天, MIT CSAIL提交了一份具有分量的工作。当整个业界都在疯狂卷模型上下文窗口(Context ...
DeepSeek 团队一定有不让 AI 人过好节假日的恶趣味。前有 DeepSeek V2、V3 在假期突袭,现在这篇 mHC (Manifold-Constrained Hyper-Connections) 论文又是卡在 2025 年底发出来,摆明了是让大家在元旦假期里还得被迫学习新架构。