MiniMax 的视频向来很顶,但技术上一直是个黑盒刚刚,海螺团队第一次自揭面纱,带来了首个开源项目:VTPVisual Tokenizer Pre-trainingVTP 这东西非常有趣:搞图像、视频生成的团队,或都能因此受益Tech Report先做个信息铺垫,现在主流的 AI ...
在大模型语境里,“Scaling Law”几乎天然只属于主模型——参数更大、数据更多、算力更猛,性能就该继续往上走。至于Tokenizer,则长期被视作一个“前置模块”,主打一个够用就行,做完重建任务就退场。
AI视觉生成领域迎来范式级突破。MiniMax与华中科技大学近日联合开源其核心技术——VTP(Visual Tokenizer Pretraining,视觉分词器预训练),在不修改标准DiT (Diffusion Transformer)架构的前提下,仅通过优化视觉分词器 (Visual ...
总的来说,这项由华中科技大学和MiniMax公司合作完成的研究解决了AI绘画领域的一个根本性问题。他们的发现不仅揭示了理解能力对创作能力的重要作用,还开发出了一个真正可扩展的训练方法。VTP方法就像为AI绘画系统安装了一双更聪明的眼睛,让它不仅能看到 ...
Visual Tokenizer 下一步进化的关键在于理解世界?相比 2D 网格序列,采用 1D 序列形式的 tokenizer 更适合大规模训练?也许目前的离散 tokenizer 可能只是阶段性的过渡性方案?生成采样阶段的分布偏移,导致了「重建强 ...
没想到 MiniMax 视频团队的首次开源工作就直接挑战了业内的固有认知。长期以来,大家普遍认为:尽管视觉生成模型中的 tokenizer(也就是常说的 VAE)对 Latent Diffusion 至关重要,但对 tokenizer 本身进行扩展(比如模型规模、算力和数据量)都难以为 diffusion ...
图像生成领域迎来新突破,MiniMax海螺视频团队近日开源的视觉分词器预训练框架VTP(Visual Tokenizer ...