testesttest-品致数荣

DeepSeek R1MLADeepSeek V2/V3先压到低维隐空间只缓存CKV和KR权值融合是提速线性层的避免小矩阵乘DeepSeek V4DeepSeek-V4 不是简单扩大模型而是在“参数规模、长上下文、训练稳定性、推理成本”之间做了一整套结构设计https://zhuanlan.zhihu.com/p/2031146581542580917DSA: DeepSeek Sparse AttentionCSA: Compressed Sparse Attention 压缩稀疏attention, 把每 m4 个 token 的 KV 信息压成一个 compressed KV entry图里右侧的 Lightning Indexer 就是做这个选择的模块。左侧的 Top-k Selector 会把真正需要关注的 compressed KV entries 选出来再和最近的 sliding window KV entries 拼起来送入 attentionHCA: Heavily Compressed Attention HCA 的压缩率是 m’128也就是每 128 个 token 压成一个 KV entrySWASliding Window Attention 保留最近 128 个 token 的未压缩 KV entries。这样模型既能通过 CSA/HCA 看远处也能通过 SWA 看近处。CSA压缩较轻还会做 top-k 选择适合较细粒度的长程信息访问。HCA压缩很重成本更低适合提供远距离的全局背景。SWA保留最近窗口的未压缩信息避免局部信息被过度压缩。然后 CSA 和 HCA 隔层交错interleave奇数层用 CSA偶数层用 HCAPro 前两层全 HCA 除外。两种层各有擅长互补。mHC: residual stream 扩成多份, 限制在一个稳定的空间里报告中对应 doubly stochastic matrix 和 Sinkhorn 投影CSA/HCA 改的是 attention 如何访问上下文mHC 改的是 Transformer block 之间 residual 信息如何传播。一个解决长上下文访问成本一个解决深层复杂结构的信息流和训练稳定性。QWEN3.5参考资料https://zhuanlan.zhihu.com/p/2022070521718666699https://zhuanlan.zhihu.com/p/19716712511237053511、为什么要设计为chunk的模式线性注意力不是对内存消耗小吗GDN 的 chunked 调度是 “状态分片硬件贴合” 的线性注意力专属优化标准 Attention 的 chunk 只是为了把 O (n²) 矩阵拆小、省显存二者目的、对象、调度粒度完全不一样。GDNGated Delta Net属于线性注意力本质是把 Attention 写成 RNN 式的递推MtMt−1ΔMt,Otf(Qt,Mt)核心维护一个全局隐状态 Md×d序列越长M 的读写压力越大、访存越不规则。Chunked 调度做法把长序列 T 切成多个时间 chunkBT如 512/1024每个 chunk 内部并行计算chunk 间串行递推状态 M同时在 K/V 维度也分块BK/BV贴合 GPU SRAM/Tensor Core 分片效果把 “逐 token 乱序访存” 变成 “chunk 级规整访存”SM 利用率从 30% → 70%–90%显存峰值从 O (Td²) 降到 O (BT・d²)能跑更长序列2、QWEN3.5的核心创新和主要目标是什么主要目标当长上下文处理成为大模型突破性能上限的关键传统 KV Cache的存储桎梏与算力消耗难题亟待破解。核心创新1Hybrid AttentionGDNGated Delta Network 标准 Attention3:175% 层用 GDN线性注意力复杂度从 O(n2) 降到 O(n)长序列256K推理提速最高 19 倍。25% 层用标准 Full Attention保留全局交互避免线性注意力性能塌陷。GDN 本质递推式状态更新 Stexp(gt)⊙St−1ktδt⊤配合因果卷积kernel4做局部时序建模。a、增量更新GDN 单序列确实比 Attention 慢顺序依赖但它的优势是内存100K 上下文时GDN 状态只需 2MB而 KV Cache 需要 1.6GB800x 差距。这让 Qwen3.5 能支持超长上下文、4 倍并发以及端侧部署。传统 Attention显式存储所有历史 KVkv_cache [(k₁,v₁), (k₂,v₂), …, (kₗ,vₗ)] # O(L) 内存GDN压缩到固定大小的矩阵state S # 128×128始终 64KB先用 α 对当前状态做一次整体衰减再用 β 在当前 key 方向上进行定点清除和写入。

testesttest

相关新闻

相关新闻

如何在M1 Mac上获得终极Android开发体验：5分钟快速配置指南

n8n 2.0中文汉化与Execute Command权限解除实战

12个颠覆性工具深度解析：重新定义VTube Studio插件开发工作流

最新新闻

3分钟学会微博备份：Speechless一键导出PDF完整指南

ModelArts平台部署Claude Code Agent全指南

AI Agent 中 Hook 机制技术

3步搞定暗黑2现代化改造：D2DX完整指南让经典游戏重获新生

FanControl终极指南：轻松解决Windows风扇控制难题，实现完美散热平衡

什么是交易挂单？一文了解挂单基础定义！

日新闻

C#与Gemma 3构建本地AI代理实战指南

如何轻松获取国家中小学智慧教育平台电子教材PDF完整指南

如何5分钟快速上手XUnity.AutoTranslator：打破语言障碍的游戏翻译神器终极指南

周新闻

月新闻