Почему текстовые парсеры снижают точность RAG?

Текстовые парсеры теряют до 36,6% ответов из-за разрушения структуры данных при преобразовании HTML в текст. Визуальная иерархия, таблицы и макеты либо игнорируются, либо искажаются, что приводит к ошибкам в извлечении информации.

Как работает PixelRAG?

PixelRAG рендерит веб-страницы в скриншоты, индексирует их как изображения и передает фрагменты напрямую в мультимодальные модели. Это позволяет сохранять структуру и макет, улучшая качество извлечения данных.

Какие преимущества дает PixelRAG для бизнеса?

Система снижает затраты на токены ИИ-агентов в 10 раз, повышает точность ответов и не требует доработок под конкретные сайты. Гибридное использование с текстовыми RAG-системами позволяет быстро внедрить решение без полной перестройки инфраструктуры.

← Все новости

Искусственный интеллект

PixelRAG превосходит текстовые парсеры в точности и снижает затраты на токены в 10 раз

12 июня 2026 г.

Фото: images.ctfassets.net

Краткий ответ

PixelRAG — новая система извлечения данных, которая использует визуальные скриншоты вместо текстовых парсеров, повышая точность ответов на 18% и снижая затраты на токены ИИ-агентов в 10 раз.

Традиционные корпоративные RAG-системы (Retrieval-Augmented Generation) начинают с преобразования веб-страниц и документов в текст с помощью парсеров. Однако этот этап разрушает ключевые сигналы для извлечения данных, что приводит к большинству ошибок в ответах. Исследователи из ведущих университетов и Databricks разработали PixelRAG — систему, которая полностью обходит текстовые парсеры, работая напрямую с визуальными скриншотами страниц.

PixelRAG рендерит страницы с помощью Playwright, разбивает их на фрагменты и индексирует как изображения. Для кодирования используется модель Qwen3-VL-Embedding-2B, а хранение векторов организовано в FAISS. Тестирование на 30 миллионах скриншотов Википедии показало превосходство над текстовыми RAG-системами на шести бенчмарках, включая задачи с таблицами и мультимодальными запросами. Точность выросла на 18,1%, а затраты на токены ИИ-агентов сократились в 10 раз.

Исследование выявило три основные причины потерь точности в текстовых RAG: разрушение структуры при парсинге (36,6% ошибок), неправильное ранжирование фрагментов (55,2%) и ошибки интерпретации моделью (8,2%). PixelRAG устраняет эти проблемы, сохраняя визуальную иерархию и макет страниц. Однако у системы есть ограничение: фиксированная высота фрагментов может разрывать таблицы или абзацы, что требует дальнейших исследований в области визуального чанкинга.

Для бизнеса PixelRAG открывает возможности гибридного подхода: визуальный поиск можно интегрировать поверх существующих текстовых RAG-систем без полной перестройки инфраструктуры. Это снижает затраты на разработку и ускоряет внедрение. Авторы исследования отмечают, что рынок уже движется в сторону гибридных решений: по данным VB Pulse, доля предприятий, планирующих использовать такие системы, выросла с 10,3% до 33,3% за первый квартал 2026 года.

Частые вопросы

Почему текстовые парсеры снижают точность RAG?: Текстовые парсеры теряют до 36,6% ответов из-за разрушения структуры данных при преобразовании HTML в текст. Визуальная иерархия, таблицы и макеты либо игнорируются, либо искажаются, что приводит к ошибкам в извлечении информации.
Как работает PixelRAG?: PixelRAG рендерит веб-страницы в скриншоты, индексирует их как изображения и передает фрагменты напрямую в мультимодальные модели. Это позволяет сохранять структуру и макет, улучшая качество извлечения данных.
Какие преимущества дает PixelRAG для бизнеса?: Система снижает затраты на токены ИИ-агентов в 10 раз, повышает точность ответов и не требует доработок под конкретные сайты. Гибридное использование с текстовыми RAG-системами позволяет быстро внедрить решение без полной перестройки инфраструктуры.

Лента для Дзен: /feed/dzen.xml · RSS: /feed.xml