Команда исследователей из Калифорнийского университета в Беркли представила Starling-7B – открытую большую языковую модель (LLM), обученную с помощью подкреплённого обучения от обратной связи ИИ (reinforcement learning from AI feedback, RLAIF).
RLAIF использует обратную связь от моделей ИИ для обучения других моделей ИИ и улучшения их возможностей. Для Starling-7B RLAIF был применён для улучшения полезности и безопасности ответов чат-бота. Модель основана на дообученной Openchat 3.5, которая в свою очередь базируется на Mistral-7B.
Если RLAIF кажется знакомым, то скорее всего вы слышали о нём в контексте ChatGPT. Однако есть одно важное отличие: для моделей GPT-3.5 и GPT-4 компании OpenAI люди улучшали производительность, оценивая вывод модели – это процесс называется подкреплённым обучением от человеческой обратной связи (reinforcement learning from human feedback, RLHF). Это и был тот самый “секретный ингредиент”, который сделал взаимодействие с ChatGPT таким естественным.
По сравнению с человеческой обратной связью, обратная связь от ИИ потенциально может быть дешевле, быстрее, прозрачнее и масштабируемее – если она работает. И Starling-7B показывает, что это может сработать.
Чтобы обучить Starling-7B, исследователи использовали подход, который они назвали “ИИ даёт советы ИИ”. Они обучили модель-консультанта давать обратную связь целевой модели (в данном случае – Starling) о том, как улучшить ответы на вопросы пользователей. Модель-консультант была обучена на данных, собранных от людей-экспертов, которые оценивали ответы модели по полезности и безопасности.
Затем исследователи использовали эту обратную связь для обучения Starling с помощью подкреплённого обучения – поощряя ответы, которые модель-консультант оценила как более полезные и безопасные.
Результаты показали, что RLAIF действительно улучшил качество ответов Starling. Ответы стали более подробными и полезными, модель лучше понимала контекст диалога. Кроме того, модель стала реже давать опасные, вредные или сбивающие с толку ответы.
Исследователи надеются, что их работа вдохновит других разработчиков ИИ использовать обратную связь от ИИ для улучшения больших языковых моделей. Этот подход может помочь сделать ИИ более полезным и безопасным.