OCC-RAG от AIRI: зачем нужны компактные ИИ-модели, которые отвечают строго по документам

Институт AIRI при поддержке Сбера представил интересную вещь: семейство компактных ИИ-моделей Optimal Cognitive Core. Первая модель в этом семействе называется OCC-RAG. Её задача не в том, чтобы «знать всё обо всём», а в том, чтобы аккуратно отвечать по предоставленным документам и не фантазировать там, где данных не хватает.

И вот это уже похоже не на очередную гонку «у кого модель больше», а на нормальный инженерный поворот. Потому что в реальной работе часто важнее не огромная память модели, а способность прочитать конкретные документы, связать факты и не выдать красивую чушь с уверенным лицом.

По данным AIRI, OCC-RAG доступна в вариантах 0,6B и 1,7B параметров, может запускаться на ноутбуке или смартфоне, работает быстрее решений на базе больших языковых моделей и тратит меньше токенов на ответ. В научной статье по OCC-RAG авторы отдельно подчёркивают ставку на ответы, строго основанные на предоставленном контексте, multi-hop reasoning и умение отказаться от ответа, если данных недостаточно.

Что вообще произошло

На ПМЭФ генеральный директор AIRI Иван Оселедец рассказал о разработке нового поколения ИИ-систем. Речь идёт о семействе Optimal Cognitive Core, или OCC. Это компактные модели, которые должны выполнять роль «когнитивного ядра» для прикладных задач.

Если перевести с презентационного языка на нормальный технический: модель не пытается хранить в себе половину интернета. Вместо этого она должна хорошо работать с тем контекстом, который ей дали. Например, с документами, отчётами, базой знаний, инструкциями, договорами или внутренними регламентами компании.

Первой моделью семейства стала OCC-RAG. Она заточена под сценарии retrieval-augmented generation, то есть под ответы по внешним источникам. Но важный нюанс: сама модель не является поисковой системой. Она не ищет документы сама, а работает с тем контекстом, который ей уже передали.

Почему это важнее, чем кажется

Большие языковые модели умеют многое. Они пишут тексты, объясняют код, помогают с переводами, черновиками, анализом и кучей других задач. Но у них есть неприятная привычка: если данных не хватает, модель может начать достраивать ответ из собственной «памяти».

Иногда это выглядит красиво. Иногда даже правдоподобно. Но для бизнеса, юристов, врачей, финансовых сервисов и корпоративных баз знаний такой подход опасен. Там важен не литературный стиль, а точность. Если в документе нет ответа, система должна честно сказать: данных недостаточно. А не сочинять уверенный абзац в стиле «я художник, я так вижу».

Вот тут и появляется смысл компактной специализированной модели. Ей не нужно помнить всё. Ей нужно уметь рассуждать по данным, которые ей дали, связывать факты из разных частей текста и не выходить за пределы контекста.

Что такое RAG по-человечески

RAG это подход, при котором модель отвечает не только на основе внутренних весов, а с опорой на внешние источники. Обычно схема такая: пользователь задаёт вопрос, система ищет подходящие фрагменты документов, передаёт их модели, а модель уже формирует ответ.

На практике это может выглядеть так:

  • в компании есть база внутренних инструкций;
  • сотрудник задаёт вопрос;
  • система находит нужные документы;
  • модель читает найденные фрагменты;
  • ответ строится по этим фрагментам, а не по догадкам.

Хороший RAG должен не просто красиво пересказывать текст. Он должен понимать, где в документах есть нужная информация, как связаны факты, что можно вывести из контекста, а где лучше остановиться и не отвечать.

Именно в эту сторону, судя по описанию AIRI и статье OCC-RAG, и двигается модель: меньше ставки на огромную «энциклопедическую память», больше ставки на аккуратное рассуждение по переданным источникам.

Почему маленькая модель может быть полезнее большой

В мире ИИ долго работала простая логика: больше параметров, больше возможностей. В целом она не взялась из воздуха. Большие модели действительно часто сильнее, гибче и лучше справляются с общими задачами.

Но у этого подхода есть цена. Большую модель дорого обучать, дорого запускать, дорого обслуживать и не всегда удобно внедрять в прикладной продукт. Особенно если задача узкая: отвечать по документам, проверять регламенты, помогать оператору поддержки или работать с корпоративной базой знаний.

Если модель должна не фантазировать, а строго отвечать по контексту, ей не обязательно быть монстром на десятки или сотни миллиардов параметров. Ей нужно быть дисциплинированной. Для ИИ это звучит почти как медицинская рекомендация, но в корпоративных системах именно дисциплина часто важнее творческого размаха.

OCC-RAG как раз интересна тем, что AIRI делает ставку на компактность и специализированность. Версии 0,6B и 1,7B выглядят скромно по сравнению с большими LLM, но зато такие модели проще запускать локально, дешевле использовать и легче встраивать в прикладные системы.

Где это может пригодиться

Самый очевидный сценарий: корпоративные базы знаний. В компаниях часто есть десятки PDF, регламентов, инструкций, презентаций, таблиц и внутренних документов. Люди знают, что ответ где-то есть, но искать его руками долго и неприятно.

RAG-система с такой моделью может помогать находить ответы по внутренним материалам. Не «вообще из интернета», а именно по тем документам, которые компания считает актуальными.

Другой сценарий: клиентская поддержка. Оператор задаёт вопрос, система поднимает нужные фрагменты базы знаний и предлагает ответ. Если данных мало, модель должна не выдумывать, а честно сказать, что информации недостаточно. Для поддержки это лучше, чем уверенно отправить клиенту неправильную инструкцию.

Ещё один вариант: юридические и комплаенс-системы. Там особенно важно отвечать по конкретным документам, а не по общему ощущению модели. Если в договоре написано одно, а модель «помнит» похожий пример из обучения, доверять нужно договору. Бумага, как ни странно, пока всё ещё сильнее нейросетевого вдохновения.

Похожая логика работает в финансовых сервисах, медицине, документообороте, технической поддержке и внутренних помощниках для сотрудников. Везде, где ответ должен быть привязан к источнику, аккуратность важнее красноречия.

Почему это интересно для обычного разработчика

Мне эта история интересна не только как новость про ИИ. Тут есть практическая инженерная мысль: не каждую задачу нужно решать самой большой моделью.

Если у вас сайт, внутренняя документация, база знаний, инструкции для клиентов или технические материалы, часто нужен не универсальный собеседник, а аккуратный помощник по конкретным данным. То есть система, которая не «болтает обо всём», а помогает быстро найти и сформулировать ответ по вашим материалам.

Для WordPress-проектов, корпоративных сайтов и клиентских порталов это тоже может быть полезно. Представьте базу статей, документацию по продукту, инструкции по услугам, FAQ и внутренние регламенты. Хороший RAG-помощник мог бы отвечать по этим данным, не превращая сайт в очередной чат, который уверенно несёт что попало.

Но тут есть важное «но». Модель сама по себе не решает весь проект. Нужны нормальные документы, поиск по ним, разбиение на фрагменты, индексация, контроль источников, проверка качества ответов и понятная логика отказа. Без этого даже хорошая модель будет работать на мусоре. А мусор на входе, как известно, даёт мусор на выходе. Только теперь ещё и с красивой формулировкой.

Что значит «отказываться от ответа»

Очень важная часть OCC-RAG: модель обучают не только отвечать, но и отказываться от ответа, если данных недостаточно. Это звучит скучно, но для реальных систем это огромная вещь.

Пользователь спрашивает: «Какая ставка по договору?» Если в переданном документе ставки нет, правильный ответ не должен быть похож на гадание. Нормальная система должна сказать: в предоставленном контексте нет данных для ответа.

Для публичного чат-бота такой отказ может показаться слабостью. Для корпоративной системы это сила. Потому что ошибка в юридическом, финансовом или медицинском контексте может стоить заметно дороже, чем честное «не знаю».

В этом смысле OCC-RAG движется в правильную сторону. Модель должна не просто генерировать, а соблюдать границы источников. Нейросеть, которая умеет вовремя остановиться, иногда полезнее нейросети, которая всегда готова ответить. Даже если не надо.

Компактные модели и локальный запуск

Отдельно интересно, что OCC-RAG заявлена в компактных вариантах 0,6B и 1,7B параметров. Такие размеры уже ближе к сценариям локального запуска, в том числе на ноутбуке или смартфоне.

Я уже экспериментировал с локальными LLM на телефоне через PocketPal, поэтому сама идея мне близка. Конечно, маленькая модель не заменяет облачные флагманы. Но для узких задач, где важна работа с конкретным контекстом, локальный запуск может быть очень полезен.

Плюсы понятны: меньше зависимость от внешнего API, ниже стоимость, больше контроля над данными, проще тестировать внутри закрытого контура. Минусы тоже есть: нужно думать о железе, скорости, качестве поиска, обновлении документов и контроле результата.

Но сама тенденция правильная. Не всё должно улетать в огромную облачную модель. Иногда для задачи нужен компактный локальный инструмент, который умеет хорошо делать одну конкретную работу. В разработке это вообще нормальная философия: не запускать Kubernetes, когда достаточно systemd-юнита. Хотя иногда руки, конечно, чешутся.

Что будет дальше

Следующим этапом AIRI называет развитие OCC в сторону агентного ядра. То есть система должна будет не только работать с уже переданным контекстом, но и самостоятельно искать недостающую информацию в поисковых системах, базах данных, корпоративных сервисах и кодовых репозиториях.

Это уже ближе к агентным системам. Пользователь задаёт задачу, а модель сама понимает, где нужно взять контекст: в документации, CRM, базе знаний, репозитории, тикетах или поиске. Но именно здесь особенно важна аккуратность. Чем больше инструментов получает агент, тем больше у него шансов не только помочь, но и наделать дел.

Поэтому идея компактного «когнитивного ядра», которое хорошо рассуждает и держится источников, выглядит логичной. Сначала учимся не фантазировать по документам, потом уже даём больше самостоятельности. Иначе получится не агент, а стажёр с root-доступом и чрезмерной уверенностью.

Что мне в этой новости кажется главным

Главное здесь не в том, что появилась ещё одна модель. Моделей сейчас много, и новости про них летят так быстро, что иногда хочется отдельный RSS-фильтр от нейросетевого шума.

Главное в подходе. Для прикладных задач всё чаще нужна не самая большая модель, а модель, которая правильно работает с контекстом, умеет связывать факты, не уходит в собственные фантазии и честно признаёт, когда данных мало.

Это особенно важно для бизнеса. Потому что бизнесу обычно не нужен ИИ, который «вдохновенно рассуждает». Ему нужен ИИ, который помогает сотруднику, клиенту или оператору получить правильный ответ по конкретным данным. Желательно быстро, дёшево и без сюрпризов.

Если OCC-RAG действительно будет хорошо работать в таких сценариях, это может быть полезной основой для корпоративных помощников, RAG-систем, внутренних баз знаний и локальных решений. Не вместо больших моделей вообще, а рядом с ними, для задач, где большой молоток не всегда нужен.

Вывод

История с Optimal Cognitive Core и OCC-RAG выглядит как нормальный инженерный ответ на усталость от гонки размеров. Не всегда нужно делать модель больше. Иногда нужно сделать её точнее, дешевле, быстрее и дисциплинированнее.

Для задач по документам, корпоративным базам знаний, поддержке, юридическим и финансовым сценариям такой подход выглядит здраво. Модель должна отвечать по источникам, связывать факты и уметь молчать, когда данных нет. Да, иногда лучший ответ ИИ это не ответ. Очень человеческая, кстати, мысль.

Посмотрим, как OCC будет развиваться дальше. Особенно интересно, что получится из агентного ядра и насколько удобно такие модели будет внедрять в реальные продукты. Пока направление выглядит правильным: меньше магии, больше инженерной дисциплины. А это в ИИ сейчас не роскошь, а необходимость.

Источники