据AIbase报道,为挑战英伟达(NVIDIA)在AI芯片市场的统治地位,Alphabet(谷歌母公司)正在推进一项名为“TorchTPU”的战略计划。该计划旨在显著提高其张量处理器(Tensor Processing Unit, TPU)芯片与PyTorch框架的兼容性,从而降低开发者从英伟达GPU切换到谷歌TPU的技术壁垒和迁移成本。
点击上方“Deephub Imba”,关注公众号,好文章不错过 !Scikit-Learn 1.8.0 更新引入了实验性的 Array API 支持。这意味着 CuPy 数组或 PyTorch 张量现在可以直接在 Scikit-Learn ...
点击上方“Deephub Imba”,关注公众号,好文章不错过 !单机 PyTorch 模型跑推理没什么问题,但数据量一旦上到万级、百万级,瓶颈就暴露出来了:内存不够、GPU 利用率低、I/O ...
具体来说,CANN 不再是一个巨大的单体软件,而是被拆解为多个功能正交的组件。分层解耦的思路贯穿了全栈:从底层的硬件驱动到中间的运行时,再到上层的编译器和加速库,每一层都实现了物理上的松耦合。
这个工程是我在学习如何在PyTorch中用C++及CUDA自定义插件时整理的内容。目前有两个算子, 一个是GELU, 参考了张校捷所著的 ...
通过对搞定目标检测(SSD篇)(上)的学习,你应该已经了解目标检测的基本原理和技术局限性,本文将会详解如何实现SSD目标检测模型。先打个预防针,本文的内容会比较烧脑,而且默认你已经掌握了上集的内容,当然我也会用平实的语言尽力给你讲清楚。
知乎专栏 on MSN
MXFP8、MXFP4 与 NVFP4 详解
一、 为什么需要mxfp8、mxfp4、nvfp4等低精度格式? 1. 大模型规模爆炸式增长 → 计算与内存瓶颈加剧 LLM 参数量已达万亿级别,训练 FLOPs 超 10²⁵。传统 FP32/BF16 格式占用高带宽内存,限制吞吐和能效。单纯降低位宽(如 INT8/FP8)会导致动态范围不足,引发训练发散或精度下降。 2. 传统低精度格式存在固有缺陷 ...
摩尔线程近日宣布,其专为PyTorch深度学习框架打造的MUSA扩展库——Torch-MUSA迎来v2.7.0版本升级。此次更新距离上一次v2.5.0版本发布仅间隔一个月,标志着该库在迭代速度与功能演进上持续加速。新版本不仅在计算能力、内存管理等方面实现突破,更通过算子扩展 ...
在AI技术爆发式发展的今天,高效、稳定、低成本的开发工具成为开发者突破瓶颈的关键。荣获“年度创新AI开发工作站”称号的联想ThinkStationPGX,以颠覆性的硬件设计、无缝衔接的软件生态与全域适配的场景能力,精准击 ...
快科技11月28日消息,摩尔线程正式发布了PyTorch深度学习框架的最新版MUSA扩展库——Torch-MUSA v2.7.0,在功能集成、性能优化、硬件支持上都实现了进一步突破。 值得一提的是,在短短一个月内,Torch-MUSA就连续完成了v2.5.0、v2.7.0两次版本更新。 另外一个变化就是 ...
虎嗅网 on MSN
股价高开468%,就这摩尔线程还没上岸?
摩尔线程发行价为114.28元/股,上市开盘价直接冲到650元/股,较发行价大涨468.78%。盘中股价更是一度涨至688元,此时中一签500股的投资者浮盈能超过28万元,成功登顶年内最赚钱新股。
虽然单颗TPU不及最强GPU,但谷歌借助超大规模集群和更高性价比,正在撬动英伟达的定价权和市场控制力。真正的战场在生态与商业模式——英伟达靠CUDA锁定用户,谷歌则用TPU + Gemini打开新入口。英伟达在通用性和生态成熟度上占据明显优势,但当越来越多头部客户开始“试水”TPU,任何一丝松动,都会被市场迅速放大。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果