SupaContext API

Нормализация документов для вашей RAG-системы

API для препроцессинга корпоративных данных. Подключается к любой RAG-системе. PDF, PPTX, сканы и таблицы — на выходе точный контекст, а не сырой текст.

Документация и API → Обсудить интеграцию →

PDFPPTXDOCXExcelСканыLangChainLlamaIndexRAG

upload.py

import supacontext

# Инициализация клиента

client = supacontext.Client(

  api_key="sk-..."

)

# Загрузка и нормализация документа

doc = client.upload(

  file="report-2025.pdf",

  space="finance"

)

# Получение чанков для RAG

chunks = doc.chunks(

  max_tokens=512,

  overlap=64

)

for chunk in chunks:

  print(chunk.text, chunk.metadata)

Проблема

Почему RAG-системы дают плохие ответы

Дело не в модели. Дело в том, что в контекст попадает мусор вместо данных.

Без SupaContext

Сырой текст из PDF

Парсеры ломают таблицы, теряют колонтитулы, путают колонки. Модель получает кашу и галлюцинирует.

С SupaContext

Структурированный контекст

Таблицы, графики, сканы — всё нормализовано. Модель получает чистые данные со ссылками на источник.

Без SupaContext

Потеря визуальных данных

Графики в слайдах, таблицы в сканах, формулы в Excel — всё это невидимо для обычных парсеров.

С SupaContext

Полное извлечение

OCR + нормализация визуальных элементов. Таблицы из сканов сохраняют структуру строк и колонок.

Как работает

Три шага до точного контекста

Загрузка

Отправьте файл через API или подключите источник: Google Drive, SharePoint, Confluence, почту.

→

Нормализация

SupaContext распознаёт структуру: таблицы, графики, сканы, формулы. Точность 96–100%.

→

Готово для RAG

Получите чанки с метаданными, готовые для LangChain, LlamaIndex или вашего пайплайна.

Форматы

47 форматов из коробки

PDF и DOCX — это только начало. Работаем со всем, что встречается в корпоративных хранилищах.

PDF

Отчёты, договоры, регламенты

Точность ≈100%

DOCX / DOC

Текстовые документы, шаблоны

Точность ≈100%

PPTX / PPT

Презентации, слайды с графиками

Точность 96–100%

XLSX / CSV

Таблицы, финансовые данные

Точность ≈100%

Сканы (JPG, PNG, TIFF)

OCR + распознавание таблиц

Точность 96–100%

HTML / TXT / RTF

Веб-страницы, текстовые файлы

Точность ≈100%

Точность

Два типа точности

Не все документы одинаковы. Мы честно показываем, чего ожидать.

Класс	Типы документов	Точность
Класс A	Тексты, инструкции, регламенты, презентации с текстом	≈100%
Класс B	Финансовые отчёты со сканами, таблицы в слайдах, графики	96–100%
Класс C	Рукописные документы, низкокачественные сканы	По запросу

REST API и SDK для Python

Интеграция за минуты. Загружайте документы, получайте структурированные чанки, управляйте пространствами — всё через API.

REST API с полной документацией
Python SDK с типизацией
Webhook-уведомления о готовности
Управление пространствами и правами
Пакетная загрузка до 1 000 файлов
Метаданные и ссылки на источник в каждом чанке

search.py

# Семантический поиск по базе

results = client.search(

  query="выручка за Q4 2025",

  space="finance",

  top_k=5

)

for r in results:

  print(r.text)

  print(r.source)  # стр. 47

  print(r.score)   # 0.94

# Подключение к LangChain

from langchain import retrievers

retriever = retrievers.SupaContext(

  api_key="sk-...",

  space="finance"

)

Интеграции

Работает с вашим стеком

Подключайте источники данных и встраивайте в существующий пайплайн.

LangChain

Готовый retriever для LangChain. Подключается одной строкой.

LlamaIndex

Data connector для LlamaIndex с поддержкой пространств.

REST API

Любой язык, любой фреймворк. Полная документация с примерами.

Google Drive

Автоматическая синхронизация папок. Новые файлы индексируются сами.

SharePoint

Подключение к корпоративным библиотекам SharePoint и OneDrive.

Confluence

Синхронизация пространств Confluence. Страницы и вложения.

Готовы подключить SupaContext API?

Покажем, как API работает с вашими документами. Бесплатный пилот — до 500 документов.

Документация → Обсудить интеграцию →

Ответим в течение дня