SupaContext API

Нормализация документов для вашей RAG-системы

API для препроцессинга корпоративных данных. Подключается к любой RAG-системе. PDF, PPTX, сканы и таблицы — на выходе точный контекст, а не сырой текст.

PDFPPTXDOCXExcelСканыLangChainLlamaIndexRAG
upload.py
import supacontext

# Инициализация клиента
client = supacontext.Client(
  api_key="sk-..."
)

# Загрузка и нормализация документа
doc = client.upload(
  file="report-2025.pdf",
  space="finance"
)

# Получение чанков для RAG
chunks = doc.chunks(
  max_tokens=512,
  overlap=64
)

for chunk in chunks:
  print(chunk.text, chunk.metadata)

Проблема

Почему RAG-системы дают плохие ответы

Дело не в модели. Дело в том, что в контекст попадает мусор вместо данных.

Без SupaContext

Сырой текст из PDF

Парсеры ломают таблицы, теряют колонтитулы, путают колонки. Модель получает кашу и галлюцинирует.

С SupaContext

Структурированный контекст

Таблицы, графики, сканы — всё нормализовано. Модель получает чистые данные со ссылками на источник.

Без SupaContext

Потеря визуальных данных

Графики в слайдах, таблицы в сканах, формулы в Excel — всё это невидимо для обычных парсеров.

С SupaContext

Полное извлечение

OCR + нормализация визуальных элементов. Таблицы из сканов сохраняют структуру строк и колонок.

Как работает

Три шага до точного контекста

1

Загрузка

Отправьте файл через API или подключите источник: Google Drive, SharePoint, Confluence, почту.

2

Нормализация

SupaContext распознаёт структуру: таблицы, графики, сканы, формулы. Точность 96–100%.

3

Готово для RAG

Получите чанки с метаданными, готовые для LangChain, LlamaIndex или вашего пайплайна.

Форматы

47 форматов из коробки

PDF и DOCX — это только начало. Работаем со всем, что встречается в корпоративных хранилищах.

PDF
Отчёты, договоры, регламенты
Точность ≈100%
DOCX / DOC
Текстовые документы, шаблоны
Точность ≈100%
PPTX / PPT
Презентации, слайды с графиками
Точность 96–100%
XLSX / CSV
Таблицы, финансовые данные
Точность ≈100%
Сканы (JPG, PNG, TIFF)
OCR + распознавание таблиц
Точность 96–100%
HTML / TXT / RTF
Веб-страницы, текстовые файлы
Точность ≈100%

Точность

Два типа точности

Не все документы одинаковы. Мы честно показываем, чего ожидать.

Класс Типы документов Точность
Класс A Тексты, инструкции, регламенты, презентации с текстом ≈100%
Класс B Финансовые отчёты со сканами, таблицы в слайдах, графики 96–100%
Класс C Рукописные документы, низкокачественные сканы По запросу

REST API и SDK для Python

Интеграция за минуты. Загружайте документы, получайте структурированные чанки, управляйте пространствами — всё через API.

  • REST API с полной документацией
  • Python SDK с типизацией
  • Webhook-уведомления о готовности
  • Управление пространствами и правами
  • Пакетная загрузка до 1 000 файлов
  • Метаданные и ссылки на источник в каждом чанке
search.py
# Семантический поиск по базе
results = client.search(
  query="выручка за Q4 2025",
  space="finance",
  top_k=5
)

for r in results:
  print(r.text)
  print(r.source) # стр. 47
  print(r.score) # 0.94

# Подключение к LangChain
from langchain import retrievers

retriever = retrievers.SupaContext(
  api_key="sk-...",
  space="finance"
)

Интеграции

Работает с вашим стеком

Подключайте источники данных и встраивайте в существующий пайплайн.

LangChain

Готовый retriever для LangChain. Подключается одной строкой.

LlamaIndex

Data connector для LlamaIndex с поддержкой пространств.

REST API

Любой язык, любой фреймворк. Полная документация с примерами.

Google Drive

Автоматическая синхронизация папок. Новые файлы индексируются сами.

SharePoint

Подключение к корпоративным библиотекам SharePoint и OneDrive.

Confluence

Синхронизация пространств Confluence. Страницы и вложения.

15 000
документов без потери точности
96–100%
точность нормализации
400 МБ
максимальный размер файла
47
поддерживаемых форматов

Готовы подключить SupaContext API?

Покажем, как API работает с вашими документами. Бесплатный пилот — до 500 документов.

Документация → Обсудить интеграцию →

Ответим в течение дня