为什么文本解析器会降低RAG的准确性？

文本解析器在将HTML转换为文本时会破坏数据结构，导致高达36.6%的回答丢失。视觉层次、表格和布局要么被忽略，要么被扭曲，从而导致信息提取错误。

PixelRAG如何工作？

PixelRAG将网页渲染为截图，以图像形式进行索引，并直接将片段传输至多模态模型。这能够保留结构和布局，从而提升数据提取质量。

PixelRAG为企业带来哪些优势？

该系统将AI代理的令牌成本降低10倍，提高回答准确性，且无需针对特定网站进行调整。与文本RAG系统混合使用，可在不完全重构基础设施的情况下快速部署解决方案。

← 全部新闻

人工智能

PixelRAG在准确性上超越文本解析器，并将令牌成本降低10倍

2026年6月12日

图片： images.ctfassets.net

简要回答

PixelRAG是一款新型数据检索系统，通过使用视觉截图而非文本解析器，将回答准确性提高18%，并将AI代理的令牌成本降低10倍。

传统的企业RAG（检索增强生成）系统首先通过解析器将网页和文档转换为文本。然而，这一步骤会破坏数据提取的关键信号，导致大多数回答出现错误。来自顶尖大学和Databricks的研究人员开发了PixelRAG——一款完全绕过文本解析器、直接处理网页视觉截图的系统。

PixelRAG通过Playwright渲染网页，将其分割为片段并以图像形式进行索引。编码使用Qwen3-VL-Embedding-2B模型，向量存储采用FAISS。在维基百科3000万张截图的测试中，PixelRAG在六个基准测试（包括表格和多模态查询任务）上超越了文本RAG系统。准确性提高了18.1%，AI代理的令牌成本降低了10倍。

研究发现，文本RAG的准确性损失主要有三个原因：解析时结构破坏（占36.6%的错误）、片段排序不当（占55.2%）以及模型解释错误（占8.2%）。PixelRAG通过保留页面的视觉层次和布局解决了这些问题。不过，该系统仍存在局限性：固定高度的片段可能会截断表格或段落，这需要在视觉分块领域进一步研究。

对于企业而言，PixelRAG提供了混合解决方案的可能性：可在现有文本RAG系统之上集成视觉搜索，无需完全重构基础设施。这降低了开发成本并加快了部署速度。研究作者指出，市场已朝着混合解决方案发展：根据VB Pulse的数据，计划采用此类系统的企业比例在2026年第一季度已从10.3%增长至33.3%。

常见问题

为什么文本解析器会降低RAG的准确性？: 文本解析器在将HTML转换为文本时会破坏数据结构，导致高达36.6%的回答丢失。视觉层次、表格和布局要么被忽略，要么被扭曲，从而导致信息提取错误。
PixelRAG如何工作？: PixelRAG将网页渲染为截图，以图像形式进行索引，并直接将片段传输至多模态模型。这能够保留结构和布局，从而提升数据提取质量。
PixelRAG为企业带来哪些优势？: 该系统将AI代理的令牌成本降低10倍，提高回答准确性，且无需针对特定网站进行调整。与文本RAG系统混合使用，可在不完全重构基础设施的情况下快速部署解决方案。

Dzen 订阅： /feed/dzen.xml · RSS： /feed.xml