点击上方“Deephub Imba”,关注公众号,好文章不错过 !Scikit-Learn 1.8.0 更新引入了实验性的 Array API 支持。这意味着 CuPy 数组或 PyTorch 张量现在可以直接在 Scikit-Learn ...
据AIbase报道,为挑战英伟达(NVIDIA)在AI芯片市场的统治地位,Alphabet(谷歌母公司)正在推进一项名为“TorchTPU”的战略计划。该计划旨在显著提高其张量处理器(Tensor Processing Unit, TPU)芯片与PyTorch框架的兼容性,从而降低开发者从英伟达GPU切换到谷歌TPU的技术壁垒和迁移成本。
11 月 28 日消息,近日,摩尔线程正式发布 PyTorch 深度学习框架的 MUSA 扩展库 ——Torch-MUSA v2.7.0,新版本在功能集成、性能优化与硬件支持方面实现进一步突破。Torch-MUSA 在短短一个月内,连续完成 v2.5.0 和 v2.7.0 两次版本更新。 据介绍,自 v2.5.0 起,Torch-MUSA 版本号已与 ...
摩尔线程近日宣布,其专为PyTorch深度学习框架打造的MUSA扩展库——Torch-MUSA迎来v2.7.0版本升级。此次更新距离上一次v2.5.0版本发布仅间隔一个月,标志着该库在迭代速度与功能演进上持续加速。新版本不仅在计算能力、内存管理等方面实现突破,更通过算子扩展 ...
知乎专栏 on MSN

MXFP8、MXFP4 与 NVFP4 详解

一、 为什么需要mxfp8、mxfp4、nvfp4等低精度格式? 1. 大模型规模爆炸式增长 → 计算与内存瓶颈加剧 LLM 参数量已达万亿级别,训练 FLOPs 超 10²⁵。传统 FP32/BF16 格式占用高带宽内存,限制吞吐和能效。单纯降低位宽(如 INT8/FP8)会导致动态范围不足,引发训练发散或精度下降。 2. 传统低精度格式存在固有缺陷 ...