Недавно результаты исследования совместных возможностей различных языковых моделей ИИ привлекли внимание. Исследователи протестировали поведение совместного использования ресурсов Claude 3.5 Sonnet от Anthropic, Gemini 1.5 Flash от Google и GPT-4o от OpenAI в сотрудничестве нескольких поколений посредством «игры доноров». В этом исследовании глубоко изучаются различия между различными моделями с точки зрения стратегий сотрудничества, реагирования на механизмы наказания и потенциальных рисков применения, что дает важную информацию для проектирования и применения будущих систем искусственного интеллекта.
Недавно новое исследование выявило существенные различия в совместных возможностях разных языковых моделей ИИ. Исследовательская группа использовала классическую «донорскую игру», чтобы проверить, как агенты ИИ делятся ресурсами в рамках сотрудничества между поколениями.
Результаты показывают, что Claude3.5Sonnet от Anthropic показал хорошие результаты, успешно создал стабильную модель сотрудничества и получил более высокий общий объем ресурсов. Gemini1.5Flash от Google и GPT-4o от OpenAI работали плохо. В частности, GPT-4o постепенно переставал сотрудничать во время тестирования, а сотрудничество агента Gemini также было очень ограниченным.
Исследовательская группа также представила механизм штрафов для наблюдения за изменениями производительности различных моделей ИИ. Было обнаружено, что производительность Claude3.5 значительно улучшилась, и агенты постепенно разработали более сложные стратегии сотрудничества, включая вознаграждение за командную работу и наказание отдельных лиц, которые пытаются использовать систему без какого-либо вклада. Для сравнения: уровень сотрудничества Близнецов значительно упал, когда была добавлена опция штрафа.
Исследователи отметили, что эти результаты могут оказать важное влияние на практическое применение будущих систем ИИ, особенно в сценариях, где системам ИИ необходимо взаимодействовать друг с другом. Однако в исследовании также были признаны некоторые ограничения, такие как тестирование только в рамках одной и той же модели без смешивания разных моделей. Кроме того, настройки игры в исследовании были относительно простыми и не отражали сложные сценарии реальной жизни. Это исследование не охватывало недавно выпущенные OpenAI o1 и Google Gemini2.0, которые могут иметь решающее значение для будущих приложений ИИ-агентов.
Исследователи также подчеркнули, что сотрудничество в области ИИ не всегда выгодно, например, когда речь идет о возможном манипулировании ценами. Поэтому ключевой задачей на будущее является разработка систем искусственного интеллекта, которые смогут расставлять приоритеты в интересах людей и избегать потенциально вредного сговора.
Выделять:
Исследования показывают, что Claude3.5 от Anthropic превосходит GPT-4o от OpenAI и Gemini1.5Flash от Google с точки зрения возможностей сотрудничества с искусственным интеллектом.
После введения механизма штрафов стратегия сотрудничества Claude3.5 стала более сложной, а уровень сотрудничества Gemini значительно снизился.
В исследовании отмечается, что задача будущего сотрудничества в области ИИ заключается в том, как обеспечить, чтобы его совместное поведение соответствовало человеческим интересам и избежать потенциальных негативных последствий.
В целом, результаты этого исследования имеют большое значение для понимания и будущего развития механизмов сотрудничества в области ИИ. Они также напоминают нам, что нам необходимо обращать внимание на потенциальные риски сотрудничества в области ИИ и активно изучать эффективные методы обеспечения этого. системы соответствуют интересам человека.