testesttest DeepSeek R1MLADeepSeek V2/V3先压到低维隐空间只缓存CKV和KR权值融合是提速线性层的避免小矩阵乘DeepSeek V4DeepSeek-V4 不是简单扩大模型而是在“参数规模、长上下文、训练稳定性、推理成本”之间做了一整套结构设计https://zhuanlan.zhihu.com/p/2031146581542580917DSA: DeepSeek Sparse AttentionCSA: Compressed Sparse Attention 压缩稀疏attention, 把每 m4 个 token 的 KV 信息压成一个 compressed KV entry图里右侧的 Lightning Indexer 就是做这个选择的模块。左侧的 Top-k Selector 会把真正需要关注的 compressed KV entries 选出来再和最近的 sliding window KV entries 拼起来送入 attentionHCA: Heavily Compressed Attention HCA 的压缩率是 m’128也就是每 128 个 token 压成一个 KV entrySWASliding Window Attention 保留最近 128 个 token 的未压缩 KV entries。这样模型既能通过 CSA/HCA 看远处也能通过 SWA 看近处。CSA压缩较轻还会做 top-k 选择适合较细粒度的长程信息访问。HCA压缩很重成本更低适合提供远距离的全局背景。SWA保留最近窗口的未压缩信息避免局部信息被过度压缩。然后 CSA 和 HCA 隔层交错interleave奇数层用 CSA偶数层用 HCAPro 前两层全 HCA 除外。两种层各有擅长互补。mHC: residual stream 扩成多份, 限制在一个稳定的空间里报告中对应 doubly stochastic matrix 和 Sinkhorn 投影CSA/HCA 改的是 attention 如何访问上下文mHC 改的是 Transformer block 之间 residual 信息如何传播。一个解决长上下文访问成本一个解决深层复杂结构的信息流和训练稳定性。QWEN3.5参考资料https://zhuanlan.zhihu.com/p/2022070521718666699https://zhuanlan.zhihu.com/p/19716712511237053511、为什么要设计为chunk的模式线性注意力不是对内存消耗小吗GDN 的 chunked 调度是 “状态分片 硬件贴合” 的线性注意力专属优化标准 Attention 的 chunk 只是为了把 O (n²) 矩阵拆小、省显存二者目的、对象、调度粒度完全不一样。GDNGated Delta Net属于线性注意力本质是把 Attention 写成 RNN 式的递推MtMt−1ΔMt,Otf(Qt,Mt)核心维护一个全局隐状态 Md×d序列越长M 的读写压力越大、访存越不规则。Chunked 调度做法把长序列 T 切成多个时间 chunkBT如 512/1024每个 chunk 内部并行计算chunk 间串行递推状态 M同时在 K/V 维度也分块BK/BV贴合 GPU SRAM/Tensor Core 分片效果把 “逐 token 乱序访存” 变成 “chunk 级规整访存”SM 利用率从 30% → 70%–90%显存峰值从 O (Td²) 降到 O (BT・d²)能跑更长序列2、QWEN3.5的核心创新和主要目标是什么主要目标当长上下文处理成为大模型突破性能上限的关键传统 KV Cache的存储桎梏与算力消耗难题亟待破解。核心创新1Hybrid AttentionGDNGated Delta Network 标准 Attention3:175% 层用 GDN线性注意力复杂度从 O(n2) 降到 O(n)长序列256K推理提速最高 19 倍。25% 层用标准 Full Attention保留全局交互避免线性注意力性能塌陷。GDN 本质递推式状态更新 Stexp(gt)⊙St−1ktδt⊤配合因果卷积kernel4做局部时序建模。a、 增量更新GDN 单序列确实比 Attention 慢顺序依赖但它的优势是内存100K 上下文时GDN 状态只需 2MB而 KV Cache 需要 1.6GB800x 差距。这让 Qwen3.5 能支持超长上下文、4 倍并发以及端侧部署。传统 Attention显式存储所有历史 KVkv_cache [(k₁,v₁), (k₂,v₂), …, (kₗ,vₗ)] # O(L) 内存GDN压缩到固定大小的矩阵state S # 128×128始终 64KB先用 α 对当前状态做一次整体衰减再用 β 在当前 key 方向上进行定点清除和写入。

相关新闻

最新新闻

3分钟学会微博备份:Speechless一键导出PDF完整指南

3分钟学会微博备份:Speechless一键导出PDF完整指南

3分钟学会微博备份:Speechless一键导出PDF完整指南 【免费下载链接】Speechless 把新浪微博的内容,导出成 PDF 文件进行备份的 Chrome Extension。 项目地址: https://gitcode.com/gh_mirrors/sp/Speechless 还在担心珍贵的微博回忆会随着时间消失…

2026/7/3 7:57:52
ModelArts平台部署Claude Code Agent全指南

ModelArts平台部署Claude Code Agent全指南

1. 项目概述最近在AI开发领域,ModelArts作为一款强大的云端开发平台,为开发者提供了便捷的AI模型训练和部署环境。而Claude Code Agent作为新兴的AI编程助手,能够显著提升开发效率。本文将详细介绍如何在ModelArts平台上部署和使用Claude Cod…

2026/7/3 7:57:52
AI Agent 中 Hook 机制技术

AI Agent 中 Hook 机制技术

1. 摘要 在 AI Agent 系统中,Hook(钩子)是一种在 Agent 生命周期关键节点插入自定义逻辑的扩展机制。它允许开发者在不修改 Agent 核心执行流程的前提下,对输入处理、模型调用、工具调用、结果校验、记忆读写、安全控制、日志审计…

2026/7/3 7:57:52
3步搞定暗黑2现代化改造:D2DX完整指南让经典游戏重获新生

3步搞定暗黑2现代化改造:D2DX完整指南让经典游戏重获新生

3步搞定暗黑2现代化改造:D2DX完整指南让经典游戏重获新生 【免费下载链接】d2dx D2DX is a complete solution to make Diablo II run well on modern PCs, with high fps and better resolutions. 项目地址: https://gitcode.com/gh_mirrors/d2/d2dx 还在为…

2026/7/3 7:57:52
FanControl终极指南:轻松解决Windows风扇控制难题,实现完美散热平衡

FanControl终极指南:轻松解决Windows风扇控制难题,实现完美散热平衡

FanControl终极指南:轻松解决Windows风扇控制难题,实现完美散热平衡 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcod…

2026/7/3 7:57:52
什么是交易挂单?一文了解挂单基础定义!

什么是交易挂单?一文了解挂单基础定义!

很多刚接触外汇交易的朋友,打开交易软件看到“Buy Limit”“Sell Stop”这些英文术语时,往往一头雾水。其实,挂单交易并没有想象中那么复杂——它就像是给市场提前下了一个“预约单”。什么是挂单交易? 简单来说,挂单交…

2026/7/3 7:52:52

周新闻

月新闻