百家樂IOS/安卓通用版/手機APP下載高出TurboQuant：Together AI把2-bit KV Cache推向真實作事

發布日期：2026-06-04 17:54 來源：未知作者：admin 瀏覽次數：

長高下文模子越來越能"記"，但真實讓它們跑到線上時，來源頂不住的往往不是算力，而是KV Cache。

每生成一個新 token，模子都要回讀越來越長的歷史 Key 和 Value。高下文越長、batch 越大，KV Cache 對顯存容量和顯存帶寬的豪侈就越彰著。

這亦然為什么 KV Cache 量化成了長高下文 serving 的中樞問題：壓得不夠，顯存撐不??；壓得太狠，推理質地又容易崩。

Together AI、悉尼大學和 UIUC 的琢磨團隊，為此建議了一種面向真實 serving 的 2-bit KV Cache 量化決議——OSCAR。

模子不再僅僅把 K/V 張量壓小，而是圍繞 attention 真實會使用的標的來作念旋轉、編著和分組，讓量化過失盡量滅絕模子最明銳的部分。

在約 2.28 effective bits per KV element 的預算下，OSCAR 仍能接近 BF16；在 Qwen3-4B-Thinking 上，比較全層 3-bit K/V TurboQuant，最高提高 40.1 分。

這意味著，KV Cache 壓縮不再僅僅"少占顯存"，而是啟動插足真實長高下文作事系統的瞎想中樞。

不是更會"壓縮向量"，而是啟動保護 attention

往時許多 KV Cache 量化體式，存眷的是怎樣更好地回復 K/V 向量自己。

但在低比特場景里，這個策動并不老是等價于更好的生成質地。

原因很平直：attention 真實消費的是 Key 和 Query 之間的匹配有計劃，以及 Value 被防衛力權重加權后的輸出。K/V 重建過失看起來不大，并不代表 attention logits、attention block output 和后續 hidden state 不會被放大偏移。

2-bit INT 唯有 4 個沖破等第，而 KV activation 中又常常存在少數幅值很大的 outlier channel。

若是量化軌范被這些極點通談牽著走，大部分正常值會被擠到很窄的區間里，attention 散播也會隨著偏。

平淡 Hadamard 旋轉不錯把 outlier 打散，卻不知談哪些標的對 attention 更要害。

OSCAR 的中樞變化就在這里：

它不再只問"奈何把 K/V 向量回復得更像"，而是問"奈何讓 attention 讀到的要害信息盡量不變"。

△只用 K/V 重建過失，容易低估真實過失傳播 OSCAR 把旋轉瞄準 attention

OSCAR 的體式不錯空洞成一句話：

用 attention-aware covariance 來決定 K/V 應該奈何旋轉。

具體到Key，量化過失和會過 QK ?插足 attention logits，因此 OSCAR 使用 query covariance，也即是 Q ? Q，來決定 Key 的旋轉標的。

具體到Value，過失會先被 attention score 加權，再插足 attention 輸出，因此 OSCAR 使用 score-weighted value covariance，也即是 V ? S ? SV，來決定 Value 的旋轉標的。

離線校準階段，系統用少許樣本計算每一層、每一個 head 的這些 covariance，并生成固定的旋轉矩陣和 clipping 閾值。

推理階段，這些參數平直復用，不需要任務級微調，也不需要在線學習。

最終旋轉不錯寫成：

R=U · Hadamard · bit-reversal

其中，U 穩當對皆 attention 有關標的，Hadamard 用來攤平 outlier 能量，bit-reversal 讓 INT2 分組更平衡，幸免某個 group 被少數很是通談主導。

也即是說，OSCAR 不是爽直"加一個旋轉"，而是把旋轉、編著和分組都放進 attention 質地這個策動里。

△從離線校準到在線推理的 pipeline

OSCAR 的另一個要害點，是它莫得停留在離線量化評測里。

它如故接入 SGLang 的作事旅途，在運行時轉機一個三段式 token pool：

亞搏體育中國一站式服務官網

BF16 sink（64 tokens）｜INT2 history｜BF16 recent（256 tokens）

開頭的 attention sink token 和最近窗口 token 不絕用 BF16 保存，用來保護 attention sink 與最近高下文。

中間最長、占比最大的歷史 KV，則保存為旋轉和編著后的 INT2。

新 token 會先寫入 recent window。隨著解碼鼓勵，最老的 recent token 會被理會 Triton kernel 處理，完成 rotate、clip、quantize 和 pack，然后左遷插足 INT2 history。

存儲上，每 4 個 2-bit 數值被打包進 1 個 byte。

decode 階段，OSCAR 在 GPU 上區分處理 BF16 段和 INT2 段：

INT2 kernel 穩當 unpack、scale/zero point 反量化以及浮點累加；BF16 kernel 處理 sink/recent；終末再通過 online softmax merge 團結兩部分紅果。

由于它兼容 paged KV、radix prefix cache 和 SGLang 的 fused kernel pipeline，OSCAR 面向的是可部署的長高下文 workload，而不是只展示漂亮的離線準確率。

小模子也能守住高難推理

論文在 Qwen3-4B-Thinking、Qwen3-8B、Qwen3-32B 和 GLM-4.7-FP8 上作念了評估。

任務秘密 GPQA、HumanEval、LiveCodeBench v6、AIME25 和 MATH500，最永生成長度達到 32K，況且每個建樹運行 5 次取平均。

成果清楚，百家樂IOS/安卓通用版/手機APP下載在約 2.28BPE 下，OSCAR 的精度仍然絕頂接近 BF16。

以Qwen3-4B-Thinking為例：

TurboQuant mean 為 31.74，QuaRot-INT2 唯有 1.40，Naive INT2 為 0.00；OSCAR 達到 71.86，距離 BF16 只差 3.78，況且比 TurboQuant 高 40.1 分。

在 Qwen3-8B 上，OSCAR mean 為 69.42，BF16 為 70.84，TurboQuant 為 56.88。

到了 Qwen3-32B 和 GLM-4.7-FP8，OSCAR 與 BF16 基本捏平。

這構成果背后的含義，比單個榜單數字更病篤：

當任務真實依賴長鏈推理、代碼生成和數學推導時，低比特 KV Cache 的中樞瓶頸不是"能不可壓"，而是壓縮過失會不會鹵莽 attention 的要害旅途。

OSCAR 的上風，恰是讓接近 2-bit 的預算仍然守住推理質地。

論文還成心看了AIME25這個高難數學推理任務，并加入 KIVI-KV2、Kitty 和 OSCAR 的對比。由于 KIVI 和 Kitty 莫得可平直用于 long context run 的 framework 扶持，論文中式了它們獨一在 32K 下陳說的 AIME25 成果。

在 Qwen3-8B 上，OSCAR 以 2.38 BPE 達到 66.67，險些追平 BF16 的 66.00，并彰著高于 KIVI-KV2 與 Kitty。

在 Qwen3-32B 上，OSCAR 達到 74.00，略高于 BF16 的 72.59，也進步 Kitty 的 69.26。

這證實，OSCAR 的上風不單體當今與 TurboQuant 的比較中。在現存 KV Cache 量化體式里，它也能以接近 2-bit 的預算守住繁重數學推明智力。

但對 serving 系統來說，精度僅僅第一關。真實上線時，還要看顯存、帶寬、batch、prefix cache，以及端到端籠統。

OSCAR 在系統層面的收益也很平直：

比較 BF16 history storage，OSCAR 不錯把 KV Cache memory 縮小約 8 倍。

在 100k context、batch-size-1、full prefix-cache hit 的拓荒下，decode 最高約 3 倍加快。

在大 batch 且顯存預算固定時，job-level throughput 最高約 7 倍。

這背后的邏輯很直白：當歷史 KV footprint 變小，系統就能在雷同顯存預算下容納更長高下文、更大 batch，梗概更多并發肯求。

prefix cache 擲中率越高，KV Cache 壓縮帶來的收益越容易滾動為籠統提高。

關于分享系統領導、多輪 Agent、器具調用鏈路這類長前綴高復用場景，這一絲尤其病篤。

其實若是把 OSCAR 放在 KV Cache 量化的發展頭緒里看，最病篤的不是它又把 bit 數壓低了一絲。

更要害的是，它把 2-bit KV Cache 的問題從"向量壓縮"鼓勵到了" attention 質地"和" serving 系統"共同瞎想。

許多低比特體式為了保分，會把第一層、終末一層或多少明銳層保留在更高 bit。這天然能減少精度耗損，但也會舉高平均 bit 數，并讓 kernel 和 cache layout 更復雜。

OSCAR 的設定更接近真實作事：歷史 KV 主體斡旋使用 INT2，只在 sink 和 recent 兩個很小窗口保留 BF16。

這讓它更容易接進 paged cache、prefix cache 和批量調度。

為什么這對長高下文 Agent 很病篤

真實 Agent 往往包含很長的系統領導、器具證實、歷史對話和檢索實質。不同肯求之間，還會存在大都分享前綴。

若是 KV Cache 全部使用 BF16，顯存很快會成為天花板。若是平直上樸素 INT2，推理鏈條又可能失真。

OSCAR 給出了一種更系統的折中：長歷史用 INT2 降容量和帶寬；要害 sink/recent 用 BF16 保褂訕；再讓 prefix cache 復用分享前綴。

這也講明了為什么 attention-aware rotation 值得被單獨建議。

它不是一個更花哨的旋轉手段，而是在從頭界說低比特 KV Cache 的優化策動：壓縮不是看法，讓模子在壓縮后仍然能正確使用防衛力機制，才是看法。

誠然，TurboQuant 仍是很強的通用 online vector quantization 體式，OSCAR 則更專注于 attention-aware 的 2-bit KV serving。

兩者并不一定只可二選一。

OSCAR 刻下 code repo 中如故把 attention-aware rotation 與更強的 Lloyd Max codebook 勾通，把壓縮率不絕往極限推。

OSCAR 帶來的要害啟發是：2-bit KV Cache 若是要真實上線，旋轉不可只追求"有"，而要瞄準 attention。

同期，它也必須被放進真實 serving 系統里通盤瞎想。

不外天然刻下 OSCAR 如故秘密多個模子限制和多類推理任務，但真實線上 workload 更復雜。翌日仍需要在更多模子架構、硬件環境、prefix cache 擲中形狀、多佃戶請乞降尾蔓延場景中不絕考證。

此外，OSCAR 重心處置的是 attention-aware rotation 與 2-bit KV serving。

后續若是能勾通更強的動態窗口政策、更多硬件后端和斡旋 serving 框架，低比特 KV Cache 的范疇還可能不絕上前鼓勵。

P.S. 作家 Zhongzhu Zhou 是 Together AI 的 Senior Research Scientist，悉尼大學博士，琢磨標的包括高效機器學習系統、模子老到與推理的算法系統協同瞎想，以及 LLM 壓縮與量化。

團隊成員區分來自 Together AI、悉尼大學和伊利諾伊大學厄巴納 - 香檳分校。

Together AI 創立于 2022 年 6 月，糾合首創東談主包括蘋果前高管 Vipul Ved Prakash、斯坦福大模子琢磨中心主任 Percy Liang、芝加哥大學副素養 Ce Zhang，以及 FlashAttention 作家 Tri Dao。

論文運動：https://arxiv.org/abs/2605.17757

名堂主頁：https://oscar-quantize.github.io/

代碼運動：https://github.com/FutureMLS-Lab/OSCAR

ModelScope 運動：https://modelscope.cn/models/togethercomputer/OSCAR-RotationZoo

HuggingFace 運動：https://huggingface.co/Zhongzhu/OSCAR-RotationZoo

一鍵三連「點贊」「轉發」「留神心」

迎接在評述區留住你的念念法！

— ?完? —

咱們正在招聘別稱眼疾手快、存眷 AI 的學術編著實習生? ? ?

感深嗜的小伙伴迎接存眷 ? ? ?了解篤定

? ? 點亮星標 ? ?

科技前沿發揚逐日見百家樂IOS/安卓通用版/手機APP下載

上一篇：上一篇：百家樂2026世界杯中國官方下載 Kimi Work內測論斷：是比Code們更懂中國職場

下一篇：下一篇：百家樂IOS/安卓通用版/手機APP下載我國科學家合成了一種細菌，約略精確褪色腫瘤！

日韩国产校园综合-日韩国产亚州欧美-日韩国产亚洲-日韩国产亚洲91-日韩国产亚洲天堂-日韩国产亚洲综-日韩国产亚洲综合-日韩国产一区

百家樂2026世界杯中國官方下載

百家樂游戲

百家樂IOS/安卓通用版/手機APP下載高出TurboQuant：Together AI把2-bit KV Cache推向真實作事

日韩国产校园综合-日韩国产亚州欧美-日韩国产亚洲-日韩国产亚洲91-日韩国产亚洲天堂-日韩国产亚洲综-日韩国产亚洲综合-日韩国产一区

百家樂游戲

百家樂IOS/安卓通用版/手機APP下載 高出TurboQuant：Together AI把2-bit KV Cache推向真實作事

百家樂IOS/安卓通用版/手機APP下載高出TurboQuant：Together AI把2-bit KV Cache推向真實作事