Модель вывода Marco-o1, недавно выпущенная международной командой AI Alibaba, демонстрирует значительный потенциал в решении открытых проблем. Он преодолевает ограничения традиционных моделей, которые ограничиваются стандартными областями ответов, и стремится исследовать приложения в областях, которые трудно измерить количественно и где нет четкого вознаграждения. Основная особенность этой модели заключается в ее уникальном методе обучения и стратегии расширения пространства решений, которая позволяет ей решать более сложные и длительные задачи, такие как перевод длинных и трудных предложений, и демонстрирует сильную способность к рассуждению для постепенного устранения проблем и, наконец, Дайте точные ответы. Открытый исходный код Marco-o1 также предоставляет ценные ресурсы исследовательскому сообществу в области искусственного интеллекта.
Alibaba International AI Team недавно выпустила новую модель рассуждения под названием Marco-o1, которая уделяет особое внимание решению открытых задач и не ограничивается предметными областями со стандартными ответами, такими как программирование и математика. Исследовательская группа стремится выяснить, можно ли эффективно обобщить такие модели на области, которые трудно измерить количественно и которые не имеют четких результатов.
Характеристики модели Marco-o1 включают использование сверхдлинных данных CoT для точной настройки, использование MCTS для расширения пространства решений и детальное расширение пространства решений. Модель использует самостоятельную игру + MCTS для создания пакета сверхдлинных данных CoT с возможностью отражения и исправления и обучается вместе с другими данными из открытого источника. Кроме того, исследовательская группа также определила мини-шаг для дальнейшего расширения пространства решений модели и управления моделью для получения более качественных ответов.
В задаче перевода модель Marco-o1 продемонстрировала свою способность справляться с переводом длинных и сложных предложений. Это первый случай, когда продление времени вывода применяется к задачам машинного перевода. Исследовательская группа выложила в открытый доступ некоторые данные ЦТ и лучшие текущие модели и планирует открыть доступ к большему количеству данных и моделей в будущем.
Модель будет глубоко обдумывать ответ при рассуждении. Например, при выводе количества букв «r» в слове «клубника» модель будет постепенно разбирать каждую букву в слове, сравнивать ее и, наконец, выводить правильный результат. В области машинного перевода модель правильно определяет сложные моменты с помощью ссылок вывода и переводит их слово за словом, повышая общую точность перевода.
Исследовательская группа также опробовала ее в других областях, доказав способность модели решать другие общие проблемы реального мира. Общая структура Marco-o1 использует самовоспроизведение+MCTS для создания пакета сверхдлинных данных CoT с возможностью отражения и исправления, а также обучения его вместе с другими данными из открытого исходного кода. Исследовательская группа также включила некоторые наборы данных о соответствии инструкциям из семейства MarcoPolo, чтобы улучшить возможности модели по соблюдению инструкций.
Что касается использования, исследовательская группа предоставляет код вывода и код тонкой настройки. Пользователи могут легко загрузить модель и токенизатор и начать общение или тонкую настройку модели. Кроме того, модель также можно запустить непосредственно в версии GGUF на ModelScope, что обеспечивает более быстрый способ ее тестирования.
Выпуск модели Marco-o1 знаменует собой важный шаг, сделанный международной командой искусственного интеллекта Alibaba в области моделей вывода, предоставляя новые идеи и инструменты для решения открытых проблем.
МодельОбъем:
https://modelscope.cn/models/AIDC-AI/Marco-o1
Арксив:
https://arxiv.org/abs/2411.14405
Гитхаб:
https://github.com/AIDC-AI/Marco-o1
Обнимающее лицо:
https://huggingface.co/AIDC-AI/Marco-o1
В целом, открытый исходный код модели Marco-o1 открывает новые возможности для исследований и приложений ИИ, и ее прорывы в решении открытых проблем заслуживают ожидания. Ссылки по теме облегчают пользователям дальнейшее понимание и использование модели.