百家樂IOS/安卓通用版/手機APP下載 高出TurboQuant:Together AI把2-bit KV Cache推向真實作事
長高下文模子越來越能"記",但真實讓它們跑到線上時,來源頂不住的往往不是算力,而是KV Cache。
每生成一個新 token,模子都要回讀越來越長的歷史 Key 和 Value。高下文越長、batch 越大,KV Cache 對顯存容量和顯存帶寬的豪侈就越彰著。
這亦然為什么 KV Cache 量化成了長高下文 serving 的中樞問題:壓得不夠,顯存撐不??;壓得太狠,推理質地又容易崩。

Together AI、悉尼大學和 UIUC 的琢磨團隊,為此建議了一種面向真實 serving 的 2-bit KV Cache 量化決議——OSCAR。
模子不再僅僅把 K/V 張量壓小,而是圍繞 attention 真實會使用的標的來作念旋轉、編著和分組,讓量化過失盡量滅絕模子最明銳的部分。
在約 2.28 effective bits per KV element 的預算下,OSCAR 仍能接近 BF16;在 Qwen3-4B-Thinking 上,比較全層 3-bit K/V TurboQuant,最高提高 40.1 分。
這意味著,KV Cache 壓縮不再僅僅"少占顯存",而是啟動插足真實長高下文作事系統的瞎想中樞。
不是更會"壓縮向量",而是啟動保護 attention
往時許多 KV Cache 量化體式,存眷的是怎樣更好地回復 K/V 向量自己。
但在低比特場景里,這個策動并不老是等價于更好的生成質地。
原因很平直:attention 真實消費的是 Key 和 Query 之間的匹配有計劃,以及 Value 被防衛力權重加權后的輸出。K/V 重建過失看起來不大,并不代表 attention logits、attention block output 和后續 hidden state 不會被放大偏移。
2-bit INT 唯有 4 個沖破等第,而 KV activation 中又常常存在少數幅值很大的 outlier channel。
若是量化軌范被這些極點通談牽著走,大部分正常值會被擠到很窄的區間里,attention 散播也會隨著偏。
平淡 Hadamard 旋轉不錯把 outlier 打散,卻不知談哪些標的對 attention 更要害。
OSCAR 的中樞變化就在這里:
它不再只問"奈何把 K/V 向量回復得更像",而是問"奈何讓 attention 讀到的要害信息盡量不變"。

△只用 K/V 重建過失,容易低估真實過失傳播 OSCAR 把旋轉瞄準 attention
OSCAR 的體式不錯空洞成一句話:
用 attention-aware covariance 來決定 K/V 應該奈何旋轉。
具體到Key,量化過失和會過 QK ?插足 attention logits,因此 OSCAR 使用 query covariance,也即是 Q ? Q,來決定 Key 的旋轉標的。
具體到Value,過失會先被 attention score 加權,再插足 attention 輸出,因此 OSCAR 使用 score-weighted value covariance,也即是 V ? S ? SV,來決定 Value 的旋轉標的。
離線校準階段,系統用少許樣本計算每一層、每一個 head 的這些 covariance,并生成固定的旋轉矩陣和 clipping 閾值。
推理階段,這些參數平直復用,不需要任務級微調,也不需要在線學習。
最終旋轉不錯寫成:
R=U · Hadamard · bit-reversal
其中,U 穩當對皆 attention 有關標的,Hadamard 用來攤平 outlier 能量,bit-reversal 讓 INT2 分組更平衡,幸免某個 group 被少數很是通談主導。
也即是說,OSCAR 不是爽直"加一個旋轉",而是把旋轉、編著和分組都放進 attention 質地這個策動里。

△從離線校準到在線推理的 pipeline
OSCAR 的另一個要害點,是它莫得停留在離線量化評測里。
它如故接入 SGLang 的作事旅途,在運行時轉機一個三段式 token pool:
亞搏體育中國一站式服務官網BF16 sink(64 tokens)|INT2 history|BF16 recent(256 tokens)
開頭的 attention sink token 和最近窗口 token 不絕用 BF16 保存,用來保護 attention sink 與最近高下文。
中間最長、占比最大的歷史 KV,則保存為旋轉和編著后的 INT2。
新 token 會先寫入 recent window。隨著解碼鼓勵,最老的 recent token 會被理會 Triton kernel 處理,完成 rotate、clip、quantize 和 pack,然后左遷插足 INT2 history。
存儲上,每 4 個 2-bit 數值被打包進 1 個 byte。
decode 階段,OSCAR 在 GPU 上區分處理 BF16 段和 INT2 段:
INT2 kernel 穩當 unpack、scale/zero point 反量化以及浮點累加;BF16 kernel 處理 sink/recent;終末再通過 online softmax merge 團結兩部分紅果。
由于它兼容 paged KV、radix prefix cache 和 SGLang 的 fused kernel pipeline,OSCAR 面向的是可部署的長高下文 workload,而不是只展示漂亮的離線準確率。
小模子也能守住高難推理
論文在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 上作念了評估。
任務秘密 GPQA、HumanEval、LiveCodeBench v6、AIME25 和 MATH500,最永生成長度達到 32K,況且每個建樹運行 5 次取平均。
成果清楚,百家樂IOS/安卓通用版/手機APP下載在約 2.28BPE 下,OSCAR 的精度仍然絕頂接近 BF16。
以Qwen3-4B-Thinking為例:
TurboQuant mean 為 31.74,QuaRot-INT2 唯有 1.40,Naive INT2 為 0.00;OSCAR 達到 71.86,距離 BF16 只差 3.78,況且比 TurboQuant 高 40.1 分。
在 Qwen3-8B 上,OSCAR mean 為 69.42,BF16 為 70.84,TurboQuant 為 56.88。
到了 Qwen3-32B 和 GLM-4.7-FP8,OSCAR 與 BF16 基本捏平。

這構成果背后的含義,比單個榜單數字更病篤:
當任務真實依賴長鏈推理、代碼生成和數學推導時,低比特 KV Cache 的中樞瓶頸不是"能不可壓",而是壓縮過失會不會鹵莽 attention 的要害旅途。
OSCAR 的上風,恰是讓接近 2-bit 的預算仍然守住推理質地。
論文還成心看了AIME25這個高難數學推理任務,并加入 KIVI-KV2、Kitty 和 OSCAR 的對比。由于 KIVI 和 Kitty 莫得可平直用于 long context run 的 framework 扶持,論文中式了它們獨一在 32K 下陳說的 AIME25 成果。
在 Qwen3-8B 上,OSCAR 以 2.38 BPE 達到 66.67,險些追平 BF16 的 66.00,并彰著高于 KIVI-KV2 與 Kitty。
在 Qwen3-32B 上,OSCAR 達到 74.00,略高于 BF16 的 72.59,也進步 Kitty 的 69.26。

這證實,OSCAR 的上風不單體當今與 TurboQuant 的比較中。在現存 KV Cache 量化體式里,它也能以接近 2-bit 的預算守住繁重數學推明智力。
但對 serving 系統來說,精度僅僅第一關。真實上線時,還要看顯存、帶寬、batch、prefix cache,以及端到端籠統。
OSCAR 在系統層面的收益也很平直:
比較 BF16 history storage,OSCAR 不錯把 KV Cache memory 縮小約 8 倍。
在 100k context、batch-size-1、full prefix-cache hit 的拓荒下,decode 最高約 3 倍加快。
在大 batch 且顯存預算固定時,job-level throughput 最高約 7 倍。

這背后的邏輯很直白:當歷史 KV footprint 變小,系統就能在雷同顯存預算下容納更長高下文、更大 batch,梗概更多并發肯求。
prefix cache 擲中率越高,KV Cache 壓縮帶來的收益越容易滾動為籠統提高。
關于分享系統領導、多輪 Agent、器具調用鏈路這類長前綴高復用場景,這一絲尤其病篤。

其實若是把 OSCAR 放在 KV Cache 量化的發展頭緒里看,最病篤的不是它又把 bit 數壓低了一絲。
更要害的是,它把 2-bit KV Cache 的問題從"向量壓縮"鼓勵到了" attention 質地"和" serving 系統"共同瞎想。
許多低比特體式為了保分,會把第一層、終末一層或多少明銳層保留在更高 bit。這天然能減少精度耗損,但也會舉高平均 bit 數,并讓 kernel 和 cache layout 更復雜。
OSCAR 的設定更接近真實作事:歷史 KV 主體斡旋使用 INT2,只在 sink 和 recent 兩個很小窗口保留 BF16。
這讓它更容易接進 paged cache、prefix cache 和批量調度。
為什么這對長高下文 Agent 很病篤
真實 Agent 往往包含很長的系統領導、器具證實、歷史對話和檢索實質。不同肯求之間,還會存在大都分享前綴。
若是 KV Cache 全部使用 BF16,顯存很快會成為天花板。若是平直上樸素 INT2,推理鏈條又可能失真。
OSCAR 給出了一種更系統的折中:長歷史用 INT2 降容量和帶寬;要害 sink/recent 用 BF16 保褂訕;再讓 prefix cache 復用分享前綴。
這也講明了為什么 attention-aware rotation 值得被單獨建議。
它不是一個更花哨的旋轉手段,而是在從頭界說低比特 KV Cache 的優化策動:壓縮不是看法,讓模子在壓縮后仍然能正確使用防衛力機制,才是看法。
誠然,TurboQuant 仍是很強的通用 online vector quantization 體式,OSCAR 則更專注于 attention-aware 的 2-bit KV serving。
兩者并不一定只可二選一。
OSCAR 刻下 code repo 中如故把 attention-aware rotation 與更強的 Lloyd Max codebook 勾通,把壓縮率不絕往極限推。
OSCAR 帶來的要害啟發是:2-bit KV Cache 若是要真實上線,旋轉不可只追求"有",而要瞄準 attention。
同期,它也必須被放進真實 serving 系統里通盤瞎想。
不外天然刻下 OSCAR 如故秘密多個模子限制和多類推理任務,但真實線上 workload 更復雜。翌日仍需要在更多模子架構、硬件環境、prefix cache 擲中形狀、多佃戶請乞降尾蔓延場景中不絕考證。
此外,OSCAR 重心處置的是 attention-aware rotation 與 2-bit KV serving。
后續若是能勾通更強的動態窗口政策、更多硬件后端和斡旋 serving 框架,低比特 KV Cache 的范疇還可能不絕上前鼓勵。
P.S. 作家 Zhongzhu Zhou 是 Together AI 的 Senior Research Scientist,悉尼大學博士,琢磨標的包括高效機器學習系統、模子老到與推理的算法系統協同瞎想,以及 LLM 壓縮與量化。
團隊成員區分來自 Together AI、悉尼大學和伊利諾伊大學厄巴納 - 香檳分校。
Together AI 創立于 2022 年 6 月,糾合首創東談主包括蘋果前高管 Vipul Ved Prakash、斯坦福大模子琢磨中心主任 Percy Liang、芝加哥大學副素養 Ce Zhang,以及 FlashAttention 作家 Tri Dao。
論文運動:https://arxiv.org/abs/2605.17757
名堂主頁:https://oscar-quantize.github.io/
代碼運動:https://github.com/FutureMLS-Lab/OSCAR
ModelScope 運動:https://modelscope.cn/models/togethercomputer/OSCAR-RotationZoo
HuggingFace 運動:https://huggingface.co/Zhongzhu/OSCAR-RotationZoo
一鍵三連「點贊」「轉發」「留神心」
迎接在評述區留住你的念念法!
— ?完? —
咱們正在招聘別稱眼疾手快、存眷 AI 的學術編著實習生? ? ?
感深嗜的小伙伴迎接存眷 ? ? ?了解篤定

? ? 點亮星標 ? ?
科技前沿發揚逐日見百家樂IOS/安卓通用版/手機APP下載