Редактор Downcodes узнал, что исследователи из Meta FAIR, Калифорнийского университета в Беркли и Нью-Йоркского университета совместно разработали новую технологию под названием Thinking Preference Optimization (TPO), которая призвана значительно улучшить обработку инструкций и обработку больших языковых моделей. (LLM) Качество ответа. Эта технология преодолевает ограничения традиционного LLM, который фокусируется только на окончательном ответе. Имитируя процесс человеческого мышления, модель позволяет модели проводить внутреннее размышление и умозаключение перед тем, как дать ответ, тем самым генерируя более точный и последовательный ответ. Ожидается, что эта технология произведет революцию в применении LLM в различных областях и предоставит пользователям лучший интерактивный опыт искусственного интеллекта.
Ядром технологии TPO является улучшенный метод рассуждения Chain of Thinking (CoT). Этот подход побуждает модели «думать, прежде чем отвечать» во время обучения, помогая им развивать более организованный внутренний мыслительный процесс, прежде чем дать окончательный ответ. Традиционные подсказки CoT иногда приводят к снижению точности, и их довольно сложно обучить из-за отсутствия четкого мышления. TPO успешно преодолевает эти проблемы, позволяя моделям оптимизировать и упрощать мыслительные процессы, не раскрывая пользователям промежуточные этапы.
В процессе обучения TPO большой языковой модели сначала предлагается генерировать несколько идей, а затем выбирается окончательный ответ. Эти результаты затем оцениваются с помощью модели «судьи», чтобы выбрать лучшие и худшие ответы. Эти результаты оценки используются как пары «выбрать» и «отклонить» для прямой оптимизации предпочтений (DPO) для постоянного улучшения качества ответа модели.
Корректируя обучающие сигналы, TPO побуждает модели думать внутренне, прежде чем ответить. Этот процесс помогает модели уточнять ответы, делая их более ясными и актуальными. Наконец, работа по оценке завершается моделью оценки на основе LLM, которая оценивает только окончательный ответ, что делает ее независимой от скрытых шагов мышления и помогает модели улучшить качество ответа. TPO также использует прямую оптимизацию предпочтений для создания пар предпочтительных и отклоненных ответов, содержащих скрытое мышление. После нескольких раундов обучения внутренний процесс модели дополнительно уточняется.
В тестах AlpacaEval и Arena-Hard метод TPO превзошел традиционные базовые уровни реагирования и превзошел модель Llama-3-8B-Instruct компании Thinking Tips. Итеративное обучение этому подходу оптимизирует возможности генерации мыслей, в конечном итоге превосходя по эффективности несколько базовых моделей. Стоит отметить, что ТПО подходит не только для решения логических и математических задач, но также демонстрирует свои таланты в обучении выполнению задач в творческих областях, таких как маркетинг и здравоохранение.
Эксперт по искусственному интеллекту и робототехнике Каран Верма поделился своими взглядами на концепцию «LLM-мышления» на социальной платформе Хороший терапевтический эффект.
Этот структурированный внутренний мыслительный процесс позволяет модели более эффективно обрабатывать сложные инструкции, что еще больше расширяет ее применение в областях, требующих многоуровневого рассуждения и детального понимания, без необходимости предоставления людьми конкретных данных для мышления. Это исследование показывает, что TPO потенциально может сделать большие языковые модели более гибкими и эффективными в различных контекстах, подходящими для областей, в которых предъявляются высокие требования к гибкости и глубине генерации ответов.
В целом, появление технологии TPO открыло новые возможности для повышения производительности больших языковых моделей, и перспективы ее применения в различных областях заслуживают внимания. Редактор Downcodes считает, что благодаря постоянному развитию и совершенствованию технологий TPO будет играть огромную роль в большем количестве областей и способствовать развитию искусственного интеллекта.