Исследовательская группа Microsoft выпустила новую технологию искусственного интеллекта — Large Action Model (LAM), которая может автономно управлять программами Windows, ознаменовав новый этап перехода ИИ от простого диалога и предложений к реальному выполнению задач. В отличие от традиционных языковых моделей, LAM может понимать различные входные данные, такие как текст, голос и изображения, и преобразовывать их в подробные планы действий. Он даже может корректировать стратегии на основе ситуаций в реальном времени для решения некоторых проблем, с которыми другие системы ИИ не могут справиться. с. Эта революционная технология открывает более широкие возможности для практического применения ИИ и указывает путь для разработки будущих помощников с искусственным интеллектом.
Исследовательская группа Microsoft недавно запустила технологию искусственного интеллекта под названием «Модель больших действий» (LAM), что ознаменовало новый этап в развитии ИИ. В отличие от традиционных языковых моделей, таких как GPT-4o, LAM может работать с программами Windows автономно, а это означает, что ИИ может не только говорить или давать предложения, но и фактически выполнять задачи.
Сильной стороной LAM является его способность понимать различные вводимые пользователем данные, включая текст, речь и изображения, а затем переводить эти запросы в подробные пошаговые планы. LAM не только разрабатывает планы, но и адаптирует свои стратегии действий с учетом условий реального времени. Процесс построения LAM в основном делится на четыре этапа: сначала модель учится разбивать задачу на логические этапы, затем с помощью более продвинутых систем искусственного интеллекта (таких как GPT-4o) она учится преобразовывать эти планы в реальность; затем конкретные действия, LAM будет самостоятельно исследовать новые решения и даже решать проблемы, с которыми не могут справиться другие системы ИИ, наконец, корректировать обучение с помощью механизма вознаграждения;
В ходе эксперимента исследовательская группа построила модель ЛАМ на базе «Мистраля-7Б» и протестировала ее в тестовой среде Word. Результаты показали, что модель успешно выполнила задачу в 71% случаев по сравнению с 63% у GPT-4o без визуальной информации.
Кроме того, LAM также показывает хорошие результаты по скорости выполнения задач: каждая задача занимает всего 30 секунд, а GPT-4o — 86 секунд. Хотя вероятность успеха GPT-4o увеличивается до 75,5% при обработке визуальной информации, в целом LAM имеет значительные преимущества по скорости и эффекту.
Чтобы построить данные для обучения, исследовательская группа первоначально собрала 29 000 примеров пар задач и планов из документов Microsoft, статей WikiHow и результатов поиска Bing. Затем они использовали GPT-4o для преобразования простых задач в сложные, тем самым расширив набор данных до 76 000 пар, т.е. на 150%. В конечном итоге в окончательный обучающий набор было включено около 2000 успешных последовательностей действий.
Хотя LAM продемонстрировал свой потенциал в разработке ИИ, исследовательская группа все еще сталкивается с некоторыми проблемами, такими как проблема возможных ошибок в действиях ИИ, проблемы, связанные с регулированием, а также технические ограничения в масштабировании и адаптации в различных приложениях. Однако исследователи полагают, что LAM представляет собой важный сдвиг в развитии ИИ, указывая на то, что помощники с искусственным интеллектом смогут более активно помогать людям в выполнении практических задач.
Основные моменты:
LAM может выполнять программы Windows автономно, преодолевая ограничения традиционного ИИ, который может только говорить.
⏱ В тесте Word вероятность успешного выполнения задачи у LAM достигла 71%, что выше, чем у GPT-4o 63%, а скорость выполнения выше.
Исследовательская группа использовала стратегию расширения данных, чтобы увеличить количество пар планов миссии до 76 000 пар, что еще больше улучшило обучающий эффект модели.
Появление LAM знаменует трансформацию искусственного интеллекта из поставщика информации в фактического исполнителя действий, что приведет к революционным изменениям в будущем взаимодействии человека с компьютером и автоматизированном офисе. Хотя LAM по-прежнему сталкивается с проблемами, он имеет большой потенциал, и стоит рассчитывать на его широкое применение и дальнейшее развитие в различных областях.