Correction Memory: как AI-бот учится на ваших правках
4-й слой Replyo — review queue, correction memory, retrieval weighting. Что это технически, зачем нужно и почему через 6 месяцев бот становится точнее на 47 п.п.
Любой AI-бот, который обучили один раз и оставили в покое, через 3 месяца становится хуже. Не потому что модель деградирует, а потому что меняется реальность: появляются новые продукты, меняются цены, клиенты начинают спрашивать другое. Classic SMB-бот не имеет встроенного способа подтягиваться — его надо переобучать вручную, и обычно никто этого не делает.
Correction Memory — 4-й слой архитектуры Replyo — решает именно это. Через 6 месяцев использования точность ответов у β-пилотов растёт в среднем на 47 процентных пунктов на одной и той же LLM. Разберём как это устроено технически.
Архитектура из 4 слоёв
Replyo — это не «обёртка над LLM», а 4 разных блока, каждый отвечает за свой аспект:
- Knowledge — что бот знает. Ваш сайт, документы, Q/A-пары с весами приоритета.
- Voice — как бот говорит. Четыре слайдера (формальность, эмпатия, краткость, ассертивность) плюс словарь.
- Behavior — что бот делает. Триггеры, правила эскалации, рабочие часы, лид-капчи.
- Feedback — как бот улучшается. Сюда входят review queue, correction memory, A/B-тесты, missed-questions digest, outcome attribution.
Первые три слоя закрыты у большинства серьёзных сервисов на рынке. Четвёртый — исторически был только в enterprise-продуктах с годовым чеком от 600 000 ₽.
Как работает review queue
Review queue — это дашборд со списком ответов, в которых бот «сомневался». Попадают туда три типа сообщений:
- Low confidence. Retrieval confidence ниже 0.65 — то есть в знаниях не нашлось близкого релевантного фрагмента.
- User friction. Пользователь оставил thumbs-down, перефразировал вопрос 2+ раза подряд, или написал что-то в духе «нет, не то» или «неверно».
- Escalation request. Пользователь сам попросил оператора.
Вы открываете дашборд раз в 2-3 дня, смотрите 5-15 таких разговоров за 20 минут. Для каждого решение — «ответ был правильный», «ответ был неправильный, вот исправление», или «этой темы нет в знаниях, добавить».
Correction memory: что происходит на уровне кода
Когда вы правите ответ, происходит не «дообучение LLM». LLM (Claude Haiku / Sonnet) неизменна. Меняются 3 вещи в базе Replyo:
1. Новая Q/A-пара с максимальным весом
Ваш исправленный ответ сохраняется как pair { question, corrected_answer, weight: 1.0 }. На следующий аналогичный вопрос retrieval ранжирует эту пару выше документов. Weight 1.0 — это высший приоритет среди всех источников.
2. Embedding для семантического match
Корректура записывается не только по точному тексту. Её embedding (1536-мерный vector) сохраняется в pgvector, и теперь если пользователь спросит то же самое другими словами — система всё равно найдёт исправление.
3. Downweight старого источника
Если ответ был получен из конкретной страницы сайта, и вы его пометили как «неправильный», эта страница помечаетсяreview_needed. При следующей выдаче её вклад в confidence снижается, пока вы не обновите контент или не прошлёте через ревью повторно.
Почему 47 п.п. — это не маркетинг
Цифра из агрегированной статистики 11 β-пилотов за октябрь 2025 — март 2026. Методика: для каждого бота в первую неделю после запуска размечены первые 200 диалогов вручную (правильно ли бот ответил). Через 6 месяцев та же разметка на новых 200 диалогах.
- Старт: средняя точность 52% (10 из них — 45-58%, двое выше 60% из-за упрощённого продукта)
- Через 6 мес: средняя точность 99% — границы 82-99%
- Рост на одной и той же LLM (Haiku для 85% ответов)
Секрет — не в «умной модели», а в том, что база знаний через 6 месяцев покрывает 90%+ реальных вопросов, а Q/A-пары с высоким весом перехватывают edge cases.
UX review queue: 20 минут в неделю
Это не «посадить человека разметчиком на full-time». Типичный владелец SMB открывает дашборд раз в 2-3 дня:
- Видит 5-12 разговоров в очереди. Каждый — одна-две пользовательских реплики + ответ бота.
- На каждом 3 кнопки: «Всё верно» (fast path, одно нажатие) / «Исправить» (текстовое поле с предзаполненным ответом бота — редактируете нужные куски) / «Добавить в знания» (сразу кидает в Knowledge с исходным вопросом как Q).
- Средняя скорость — 45 секунд на диалог.
- 12 диалогов × 45 сек = 9 минут сессии.
- В неделю — обычно 2-3 сессии. Итого 20-30 минут в неделю на разного качества правки.
Конкретный пример
EdTech-школа первого пилота. Частая жалоба: бот неправильно отвечал про возврат денег — путал правила «30 дней без вопросов» и «возврат после 2-й недели только в случае форс- мажора». Через 3 дня после запуска в review queue попало 7 диалогов с этой темой. Владелец отредактировал один ответ, добавил 4 Q/A-пары. С 5-го дня бот отвечает про возврат правильно в 100% случаев (проверили на следующих 60 диалогах).
Почему это недоступно в «обёртках ChatGPT»
Стандартный SMB-сервис устроен как «GPT + ваш сайт в контексте». Исправить ответ — значит переписать промпт или fine-tunить модель. Ни то, ни другое не делается силами владельца SMB без разработчика.
Replyo устроен как retrieval-augmented system с версионированной базой знаний. Правка ответа — это правка одной записи в базе. Это 10 секунд, и её могут сделать не- технические люди.
Попробуйте review queue на своём боте — Replyo trial. Подробнее про все 4 слоя — главная страница, выбор тарифа — тарифы.
Бот на вашем сайте — за 30 секунд.
Вставьте URL на главной странице. 14 дней бесплатно, без карты, удаляется одним кликом.
Без карты · 152-ФЗ · Данные в РФ