PixelRAG在准确性上超越文本解析器,并将令牌成本降低10倍
简要回答
PixelRAG是一款新型数据检索系统,通过使用视觉截图而非文本解析器,将回答准确性提高18%,并将AI代理的令牌成本降低10倍。
传统的企业RAG(检索增强生成)系统首先通过解析器将网页和文档转换为文本。然而,这一步骤会破坏数据提取的关键信号,导致大多数回答出现错误。来自顶尖大学和Databricks的研究人员开发了PixelRAG——一款完全绕过文本解析器、直接处理网页视觉截图的系统。
PixelRAG通过Playwright渲染网页,将其分割为片段并以图像形式进行索引。编码使用Qwen3-VL-Embedding-2B模型,向量存储采用FAISS。在维基百科3000万张截图的测试中,PixelRAG在六个基准测试(包括表格和多模态查询任务)上超越了文本RAG系统。准确性提高了18.1%,AI代理的令牌成本降低了10倍。
研究发现,文本RAG的准确性损失主要有三个原因:解析时结构破坏(占36.6%的错误)、片段排序不当(占55.2%)以及模型解释错误(占8.2%)。PixelRAG通过保留页面的视觉层次和布局解决了这些问题。不过,该系统仍存在局限性:固定高度的片段可能会截断表格或段落,这需要在视觉分块领域进一步研究。
对于企业而言,PixelRAG提供了混合解决方案的可能性:可在现有文本RAG系统之上集成视觉搜索,无需完全重构基础设施。这降低了开发成本并加快了部署速度。研究作者指出,市场已朝着混合解决方案发展:根据VB Pulse的数据,计划采用此类系统的企业比例在2026年第一季度已从10.3%增长至33.3%。
常见问题
- 为什么文本解析器会降低RAG的准确性?
- 文本解析器在将HTML转换为文本时会破坏数据结构,导致高达36.6%的回答丢失。视觉层次、表格和布局要么被忽略,要么被扭曲,从而导致信息提取错误。
- PixelRAG如何工作?
- PixelRAG将网页渲染为截图,以图像形式进行索引,并直接将片段传输至多模态模型。这能够保留结构和布局,从而提升数据提取质量。
- PixelRAG为企业带来哪些优势?
- 该系统将AI代理的令牌成本降低10倍,提高回答准确性,且无需针对特定网站进行调整。与文本RAG系统混合使用,可在不完全重构基础设施的情况下快速部署解决方案。
分享:
Dzen 订阅: /feed/dzen.xml · RSS: /feed.xml