精品国产自在91欧美日韩,日韩一区二区三区黄视频,午夜黄色大片免费在看啪啪,美女国产午夜福利精品视频,熟女视频一区二区在线观看

News Contents
新聞資訊

DeepSeek-OCR是「長文本理解」未來方向?中科院VTCBench給出答案

發(fā)表日期2026/1/14 11:08:38      瀏覽次數(shù):

DeepSeek-OCR 的視覺文本壓縮(VTC)技術(shù)通過將文本編碼為視覺 Token,實現(xiàn)高達(dá) 10 倍的壓縮率,大幅降低大模型處理長文本的成本。但是,視覺語言模型能否理解壓縮后的高密度信息?中科院自動化所等推出 VTCBench 基準(zhǔn)測試,評估模型在視覺空間中的認(rèn)知極限,包括信息檢索、關(guān)聯(lián)推理和長期記憶三大任務(wù)。

近期,DeepSeek-OCR 憑借其創(chuàng)新的「視覺文本壓縮」(Vision-Text Compression, VTC)范式引發(fā)了技術(shù)圈的高度關(guān)注,以極少的視覺 Token 實現(xiàn)高效的文本信息編碼,為長文本處理開辟了新路徑。

這一突破性進(jìn)展讓大模型處理超長文本的成本大幅降低,但也拋出了一個核心問題:當(dāng)長文本被高度壓縮為 2D 圖像后,視覺語言模型(VLM)真的能理解其中的內(nèi)容嗎?

為了解答這一疑問,來自中科院自動化所、中國科學(xué)院香港創(chuàng)新研究院等機(jī)構(gòu)的研究團(tuán)隊推出了首個專門針對視覺 - 文本壓縮范式的基準(zhǔn)測試 ——VTCBench。

與傳統(tǒng)大模型直接讀取成千上萬的純文本 Token 不同,VTC 范式(如 DeepSeek-OCR)先將長文檔渲染 (Rendering)為高密度的 2D 圖像,再由視覺編碼器轉(zhuǎn)化為少量的視覺 Token。

該技術(shù)可實現(xiàn) 2 倍至 10 倍的 Token 壓縮率,顯著降低了長文本處理時的計算與顯存開銷。

VTCBench 現(xiàn)已在 GitHub 和 Huggingface 全面開源,其衍生版本 VTCBench-Wild 是一個統(tǒng)一的、全方位評估模型在復(fù)雜現(xiàn)實場景下視覺文本壓縮的魯棒性,現(xiàn)已集成到 VLMevalkit。

核心使命——衡量「看得見」之后的「看得懂」

目前的 VLM 也許能出色地完成 OCR 識別,但在處理 VTC 壓縮后的高密度信息時,其長文本理解能力仍存疑。

VTCBench 通過三大任務(wù),系統(tǒng)性地評估模型在視覺空間中的認(rèn)知極限:

VTC-Retrieval (信息檢索):在視覺「大?!怪袑ふ姨囟ㄊ聦嵉摹羔槨梗∟eedle-in-a-Haystack),測試模型對空間分布信息的捕捉能力;

VTC-Reasoning (關(guān)聯(lián)推理):挑戰(zhàn)模型在幾乎沒有文本重疊的情況下,通過關(guān)聯(lián)推理尋找事實,超越單純的詞匯檢索;

VTC-Memory (長期記憶):模擬超長對話,評估模型在視覺壓縮框架下,抵御時間與結(jié)構(gòu)性信息衰減的能力。

此外,團(tuán)隊同步推出了 VTCBench-Wild,引入 99 種不同的渲染配置(涵蓋多種字體、字號、行高及背景),全方位檢測模型在復(fù)雜現(xiàn)實場景下的魯棒性。

揭秘視覺壓縮背后的認(rèn)知瓶頸

測試結(jié)果呈現(xiàn)出顯著的 「U 型曲線」:與文本模型類似,視覺語言模型(VLM)能夠精準(zhǔn)捕捉開頭和結(jié)尾的信息,但對于中間部分的事實,理解能力會隨著文檔變長而劇烈衰退。

這證明了即使在視覺空間,模型依然存在嚴(yán)重的「空間注意力偏見」,是未來 VTC 架構(gòu)優(yōu)化的關(guān)鍵方向。

行業(yè)洞察 —— 視覺壓縮是長文本的終局嗎?

通過對 GPT、Gemini、Claude、QwenVL、InternVL、Gemma、KimiVL、Seed1.5 等 10 余種尖端模型的深度評測,可以發(fā)現(xiàn):

雖然 VTC 極大提升了效率,但現(xiàn)有 VLM 在復(fù)雜推理和記憶任務(wù)上的表現(xiàn)仍顯著弱于純文本 LLM;

消融實驗證明,信息密度是決定模型性能的關(guān)鍵因素,直接影響視覺編碼器的識別精度;

Gemini-3-Pro 在 VTCBench-Wild 上表現(xiàn)驚艷,其視覺理解能力已幾乎追平其純文本基準(zhǔn),證明了 VTC 是實現(xiàn)大規(guī)模長文本處理的極其可行的路徑!

總結(jié)

如果說傳統(tǒng)的長文本處理是「逐字閱讀」,那么, DeepSeek-OCR 所引領(lǐng)的 VTC 范式就是「過目成誦」的攝影式記憶。VTCBench 的出現(xiàn),正是為了確保模型在擁有這種「超能力」的同時,依然能夠讀懂字里行間的微言大義。


來源: 機(jī)器之心Pro

撫順眾聯(lián)網(wǎng)絡(luò)公司轉(zhuǎn)載

撫順網(wǎng)絡(luò)公司 撫順網(wǎng)絡(luò) 撫順軟件公司


撫順眾聯(lián)網(wǎng)絡(luò)成立于2002年,一直專注于高品質(zhì)網(wǎng)站建設(shè),服務(wù)!
靖江市| 百色市| 萝北县| 麟游县| 博客| 海林市| 四子王旗| 海伦市| 红安县| 新密市| 内江市| 昭苏县| 岑溪市| 清河县| 黑龙江省| 临西县| 炉霍县| 宝丰县| 海阳市| 颍上县| 临江市| 高陵县| 合水县| 仙桃市| 克东县| 桂林市| 含山县| 安岳县| 垦利县| 桃源县| 昭平县| 八宿县| 赣榆县| 无棣县| 辛集市| 怀宁县| 大余县| 宜昌市| 万州区| 寿光市| 宝清县|