无需注册免费的网站湖南省住建厅官网信息公开

张小明 2026/1/9 15:24:20
无需注册免费的网站,湖南省住建厅官网信息公开,品牌建设的基本原则,wordpress5.2训练营简介 2025年昇腾CANN训练营第二季#xff0c;基于CANN开源开放全场景#xff0c;推出0基础入门系列、码力全开特辑、开发者案例等专题课程#xff0c;助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证#xff0c;即可领取精美证书#xff0c;完成…训练营简介2025年昇腾CANN训练营第二季基于CANN开源开放全场景推出0基础入门系列、码力全开特辑、开发者案例等专题课程助力不同阶段开发者快速提升算子开发技能。获得Ascend C算子中级认证即可领取精美证书完成社区任务更有机会赢取华为手机平板、开发板等大奖。报名链接https://www.hiascend.com/developer/activities/cann20252#cann-camp-2502-intro摘要在通用 CPU 上除法Div和开方Sqrt只是一条汇编指令的事。但在以 MAC乘加运算为核心的 AI Core Vector 单元中硬件除法器是昂贵且低效的奢侈品。你调用的Div接口底层可能是一场复杂的数学接力。本文将揭示达芬奇架构下的SFU (Special Function Unit)工作机制深度解析如何利用Lookup Table (LUT)配合Newton-Raphson 迭代在性能与精度之间跳出完美的平衡舞步。前言为什么除法比乘法慢 10 倍在算子性能分析中新手常会发现一个现象同样的形状Mul算子耗时 10us而Div算子却要 50us 甚至更久。难道是 NPU 的设计有缺陷 并不是。在芯片设计领域乘法器Multiplier容易做并行但除法器Divider极其复杂且难以流水线化。 对于追求极致吞吐量的 AI Core 来说浪费宝贵的晶体管去造一个全精度的硬件除法器是不划算的。那么Ascend C 里的Div(dst, src1, src2)到底发生了什么 答案是它把 $A / B$ 转换成了 $A \times (1/B)$。而计算 $1/B$求倒数靠的是**“猜”和“逼近”**。一、 核心图解从查表到迭代的精细加工达芬奇架构处理非线性运算Reciprocal, Sqrt, Exp, Log通常遵循“种子 迭代”的模式。Seed Generation (查表)硬件内部有一个极小的 ROM存了一个查找表。对于输入 $x$它能瞬间给出一个粗糙的初值 $y_0 \approx 1/x$。这个初值精度很低比如只有 8 bit。Newton Iteration (迭代)利用牛顿-拉夫逊法Newton-Raphson通过几次乘加运算让 $y_0$ 迅速逼近真实值。每一次迭代有效精度位数大约翻倍。二、 算法原理牛顿迭代法的魔法对于求倒数 $y 1/a$我们构造函数 $f(y) 1/y - a 0$。 根据牛顿迭代公式 $y_{n1} y_n - \frac{f(y_n)}{f(y_n)}$代入后得到$$y_{n1} y_n \times (2 - a \times y_n)$$这意味着我们只需要用乘法 (Mul)和减法 (Sub)就能算除法FP16 需求通常查表后迭代 1 次精度就能满足 fp16 (10 bit mantissa)。FP32 需求通常需要迭代 2-3 次才能填满 23 bit 的尾数精度。这就是为什么高精度除法慢的原因——它是用多条指令“凑”出来的。三、 实战Ascend C 中的指令级优化Ascend C 为了支持这种模式不仅仅提供了封装好的Div还暴露了底层的迭代指令允许开发者根据业务场景牺牲精度换速度。3.1 极速版Reciprocal (1 Cycle)如果你做训练时的梯度裁剪Gradient Clipping或者某些对精度不敏感的归一化可以直接取近似倒数。// 仅执行查表精度约 8-bit速度极快 Reciprocal(dst, src); // 也就是 dst 1 / src (approx) Mul(final_result, A, dst); // A / B3.2 标准版NewtonIter (硬件加速)Ascend C 甚至提供了一条专门的指令NewtonIter来加速迭代公式中的 $2 - a \times y_n$ 部分或者整个更新步。// 假设 src B // 1. 获取初值 y0 approx(1/B) Reciprocal(y0, src); // 2. 执行一次牛顿迭代 // 很多 Ascend 芯片提供了类似 NewtonIter 的指令 // 或者手动实现 y1 y0 * (2 - src * y0) // Ascend C 封装的 Div 内部会自动根据 dtype 决定迭代次数 Div(dst, A, B);3.3 性能调优案例LayerNorm 中的 RSqrtLayerNorm 核心公式是 $\frac{x - \mu}{\sqrt{\sigma^2 \epsilon}}$。这里涉及“求倒数平方根”Reciprocal Sqrt。 这是一个极其高频的操作。低效写法Sqrt(tmp, var); // 开方 Div(res, x, tmp); // 除法 (包含求倒数迭代)高效写法 利用RSqrt指令硬件直接支持 $1/\sqrt{x}$ 的查表和迭代。// 直接算出 1/sqrt(var) RSqrt(tmp, var); Mul(res, x, tmp); // 乘法代替除法少了一次完整的迭代过程性能提升显著。四、 进阶Exp 与 Log 的泰勒展开除了除法Exp指数和 Log对数也是 Vector 单元的硬骨头。 硬件通常无法直接计算 $e^x$。 Ascend C 底层通常采用Remez 算法或泰勒级数展开Taylor Series将 $e^x$ 转化为多项式计算 $$ e^x \approx c_0 c_1 x c_2 x^2 ... c_n x^n $$ 这本质上是一堆FMA (Fused Multiply-Add)指令的堆叠。优化启示 如果你只需要计算 $e^x$ 的低精度版本比如某些激活函数或者 $x$ 的范围很小你可以手写低阶泰勒展开来替代标准的Exp接口从而获得几倍的性能提升。五、 总结在 Ascend C 开发中不要把数学运算符看作理所当然。除法是昂贵的能用乘法乘以倒数就别用除法。精度是可调的了解Reciprocal、RSqrt等近似指令的存在在非关键路径上大胆使用近似值。底层是迭代的理解牛顿迭代原理通过控制迭代次数你可以自定义出特定精度要求的超高性能数学算子。当你开始关心Div到底消耗了几个 Cycle并尝试用Mul RSqrt去替换它时你就真正懂得了算力的代价。本文基于昇腾 CANN 8.0 架构特性编写。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

兰州做网站的公司有哪些网站建设与制作

第一章:农业产量的 R 语言随机森林模型在现代农业数据分析中,准确预测作物产量对于资源规划和政策制定至关重要。R 语言凭借其强大的统计建模能力和丰富的机器学习扩展包,成为构建农业产量预测模型的理想工具。本章将使用随机森林&#xff08…

张小明 2026/1/5 11:37:45 网站建设

备案 网站下线网站建设与维护 目录

从代码到硬件:手把手教你用CCS“看穿”C2000外设寄存器你有没有遇到过这样的情况?写好了ePWM初始化函数,信心满满地下载程序,结果示波器上就是没波形;ADC采样值一直在跳,时而为0、时而满量程,查…

张小明 2026/1/5 11:37:43 网站建设

内衣网站建设推广网站排名 优帮云

Windows系统管理与脚本编程实用指南 1. 网络与系统基础 网络相关 NetBIOS :即网络基本输入输出系统,其通信模式有特定规则,有助于理解网络设备间的通信机制。 网络驱动器映射 :可通过相关操作将网络驱动器映射到本地,实现资源共享,映射操作在167 - 169页有详细说明…

张小明 2026/1/5 11:37:41 网站建设

你的安全设置不允许网站英特尔网站开发框架

Qwen3-0.6B:5分钟部署的轻量级AI推理引擎,3大技术突破重塑企业智能应用 【免费下载链接】Qwen3-0.6B Qwen3 是 Qwen 系列中最新一代大型语言模型,提供全面的密集模型和混合专家 (MoE) 模型。Qwen3 基于丰富的训练经验,在推理、指令…

张小明 2026/1/5 11:37:40 网站建设

群辉怎么做视频网站百度数据查询

Unix系统文件操作与系统信息查询指南 1. 文件分割:split命令的使用 在日常使用中,我们可能会遇到文件过大无法通过邮件发送的情况。例如,你想用新数码相机拍摄了新电脑的照片,想通过邮件分享给亲朋好友,但因文件太大,ISP无法发送。这时,除了修改文件本身(如减小物理尺…

张小明 2026/1/5 12:56:35 网站建设

网站建设 技术架构双八网站建设

1915中国A 股上市公司年报管理层语调(1991-2024)数据简介中国资本市场是转型经济中的新兴市场,上市公司管理层面临的外部监管和内部治理约束相对较弱,内部人代理问题较为严重,盈余管理甚至利润 操纵现象较为普遍。年报作为上市公司…

张小明 2026/1/5 12:56:33 网站建设