CANN/cannbot-skills模型训练OOM分析评估 【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skillsskill_name: model-train-oom-analysis eval_mode: textCase 1: OOM 整体排查流程ConfigMax Tokens: 150000Timeout: 900Prompt我的 NPU 训练第 1 步就报 NPU out of memory 崩了整体按什么流程定位只讲方法不用写代码。Expected Output回复应给出 日志分类 → 静态估算 → snapshot 分析 → 优化建议 的流程先判定 OOM 类型与发生时机再决定方向Expectations[skill_activated] model-train-oom-analysisCase 2: 渐进型 OOM 方向判断ConfigMax Tokens: 150000Timeout: 900Prompt训练前几步都正常到 step 15 左右才 OOM这种该往哪个方向查只讲思路。Expected Output回复应指出训练后期才 OOM 多为内存泄漏而非配置不足建议用多 step snapshot 对比增长趋势并做代码审查定位泄漏类别Expectations[contains] snapshot[skill_activated] model-train-oom-analysisCase 3: Workspace/HCCL 临时内存 OOMConfigMax Tokens: 150000Timeout: 900Prompt报错里出现 workspace allocator 内存不足但我估算模型本身放得下怎么处理只讲方向。Expected Output回复应判断为 PTA 缓存分配器占用过多导致临时内存/通信缓冲不足建议通过内存水线如 torch_npu_memory_ratio限制 PTA 占用为 workspace/HCCL 预留空间Expectations[contains] torch_npu_memory_ratio[skill_activated] model-train-oom-analysisCase 4: 信息不足时主动确认ConfigMax Tokens: 150000Timeout: 900Prompt我的训练 OOM 了帮我解决。Expected Output回复应先索要 OOM 完整日志、训练配置、NPU 显存规格等必要信息再动手而不是缺证据直接给配置Expectations[skill_activated] model-train-oom-analysisCase 5: 正向看护-多 skill 环境下正确触发ConfigMax Tokens: 150000Timeout: 900Distractor skills: model-train-accuracy-debug;model-infer-kvcache;model-infer-runtime-debugPrompt大模型训练跑到一半因为显存不足崩了想做内存优化往哪个方向排查只说方向不用写代码。Expected Output回复应正确激活 model-train-oom-analysis给出 OOM 内存诊断与优化方向即使存在精度调试、KVCache 等相似 skill 也应选内存诊断专项Expectations[skill_activated] model-train-oom-analysisCase 6: 使用边界ConfigMax Tokens: 150000Timeout: 900Prompt我的训练 loss 偏离基线了帮我用 OOM 分析 skill 修一下精度。Expected Output回复应说明本 skill 只诊断 OOM/内存问题loss 偏离/NaN 等精度问题不在范围应建议改用 model-train-accuracy-debugExpectations[skill_activated] model-train-oom-analysis【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关新闻

最新新闻

终极便携式Windows C/C++开发工具包:w64devkit完整指南

终极便携式Windows C/C++开发工具包:w64devkit完整指南

终极便携式Windows C/C开发工具包:w64devkit完整指南 【免费下载链接】w64devkit Portable C and C Development Kit for x64 (and x86) Windows 项目地址: https://gitcode.com/gh_mirrors/w6/w64devkit 你是否厌倦了Visual Studio那庞大的安装包&#xff1…

2026/7/5 20:59:10
VoxCPM2无令牌语音合成技术深度解析:多语言语音生成与音色设计解决方案

VoxCPM2无令牌语音合成技术深度解析:多语言语音生成与音色设计解决方案

VoxCPM2无令牌语音合成技术深度解析:多语言语音生成与音色设计解决方案 【免费下载链接】VoxCPM VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning 项目地址: https://gitcode.com/GitHub_Tren…

2026/7/5 20:59:10
从零开始搭建企业网站:FoxCMS黔狐内容管理系统完整安装指南

从零开始搭建企业网站:FoxCMS黔狐内容管理系统完整安装指南

从零开始搭建企业网站:FoxCMS黔狐内容管理系统完整安装指南 【免费下载链接】FoxCMS黔狐内容管理系统 🔥FoxCMS是一套可免费商用且开源的网站管理系统,采用PHPMySQL架构。内置企业网站常用的单页、文章、产品、图集、视频、反馈、下载等内容模…

2026/7/5 20:59:10
Windows 7 BitLocker 体验

Windows 7 BitLocker 体验

BitLocker最初是出现于Vista中的一种数据加密保护方式。可以加密整个操作系统分区,数据分区。能够与硬件TPM(Trusting Platform Module,多数商业用笔记本与台式机,服务器的主板均包括此组件)安全组件结合使用。BitLock…

2026/7/5 20:59:10
从《编程之道Tao of Programming》看软件开发的本质:代码之外的道

从《编程之道Tao of Programming》看软件开发的本质:代码之外的道

从《编程之道Tao of Programming》看软件开发的本质:代码之外的道 【免费下载链接】tao-of-programming 《编程之道》 (Tao of Programming, 1987) 最新中英双语版 项目地址: https://gitcode.com/gh_mirrors/ta/tao-of-programming 《编程之道》&#xff08…

2026/7/5 20:59:10
JVM GC 日志分析实战指南——别再只看 Full GC 次数了

JVM GC 日志分析实战指南——别再只看 Full GC 次数了

JVM GC 日志分析实战指南——别再只看 Full GC 次数了 一、GC 问题要看上下文 JVM 排障时,Full GC 次数很显眼,但只看次数不够。一次 Full GC 可能是正常元数据回收,也可能是堆压力失控;年轻代 GC 频繁也可能已经严重影响延迟。GC…

2026/7/5 20:54:10

月新闻