Мы переживаем захватывающий поворотный момент в развитии искусственного интеллекта.
Представьте, как будет выглядеть искусственный интеллект в будущем? С помощью простой команды они могут понимать и выполнять сложные задачи, а также визуально фиксировать выражения и движения пользователя, чтобы определить его эмоциональное состояние; Это уже не сцена из голливудского фантастического фильма, а постепенно входящая в реальность эпоха ИИ-агентов.
Еще в ноябре 2023 года основатель Microsoft Билл Гейтс написал, что агенты не только изменят способ взаимодействия людей с компьютерами, но также разрушят индустрию программного обеспечения и вызовут крупнейшую компьютерную революцию с тех пор, как мы начали вводить команды для нажатия на значки. Генеральный директор OpenAI Сэм Альтман также неоднократно заявлял, что эпоха создания огромных моделей ИИ закончилась, и агенты ИИ станут настоящей проблемой в будущем. В апреле этого года Эндрю Нг, известный ученый в области искусственного интеллекта и профессор Стэнфордского университета, отметил, что рабочий процесс агентов будет способствовать огромному прогрессу в области искусственного интеллекта в этом году и может даже превзойти следующее поколение базовых моделей.
Аналогично умным электромобилям, так же, как они находят определенный баланс между применением новых энергетических технологий и беспокойством о запасе хода, агенты ИИ позволяют искусственному интеллекту войти в «режим расширения диапазона между технологиями ИИ и отраслевыми приложениями. Старайтесь достичь нового баланса, когда это возможно». .
Как следует из названия, агент ИИ — это интеллектуальная сущность, которая может автономно воспринимать окружающую среду, принимать решения и выполнять действия. Это может быть программа, система или робот.
В прошлом году совместная исследовательская группа Стэнфордского университета и Google опубликовала исследовательскую работу под названием «Генераторные агенты: интерактивное моделирование человеческого поведения». В статье 25 виртуальных людей, живущих в виртуальном городе Смоллвиль, после доступа к ChatGPT продемонстрировали различное человеческое поведение, тем самым положив начало концепции агентов ИИ.
С тех пор многие исследовательские группы интегрировали разработанные ими большие модели в такие игры, как «Minecraft». Например, главный научный сотрудник Nvidia Джим Фан создал в «Minecraft» ИИ-агента по имени «Вояджер». Вскоре «Вояджер» продемонстрировал превосходные способности к обучению. Он может освоить навыки копания, строительства домов, коллекционирования, охоты и других игр без учителя. Он также может корректировать свои стратегии сбора ресурсов в соответствии с различными условиями местности.
OpenAI однажды перечислила пятиуровневую дорожную карту для достижения общего искусственного интеллекта: L1 — чат-бот; L2 — мыслитель, то есть ИИ, который может решать проблемы, как человек. L3 — агент, то есть ИИ, который может не только думать; но и действовать Система; L4 – новатор; L5 – организатор; Среди них агенты ИИ занимают решающую позицию в соединении прошлого и будущего.
В качестве важной концепции в области искусственного интеллекта научные круги и промышленность предложили различные определения агентов ИИ. Грубо говоря, агент ИИ должен обладать человеческими способностями мышления и планирования, а также обладать определенными навыками взаимодействия с окружающей средой и людьми для выполнения конкретных задач.
Возможно, мы сможем лучше понять это, проведя аналогию агентов ИИ с цифровыми людьми в компьютерной среде: мозг цифрового человека — это большая языковая модель или алгоритм искусственного интеллекта, который может обрабатывать информацию и принимать решения во взаимодействии в реальном времени; модуль восприятия — это он; эквивалентен органам чувств, таким как глаза и уши, которые используются для получения информации о различных состояниях окружающей среды, таких как текст, звук и изображения; модуль памяти и поиска аналогичен нейронам, используемым для хранения опыта и помощи в принятии решений; модуль выполнения действий — это конечности, используемые для выполнения решений, принятых мозгом.
В течение долгого времени люди стремились к созданию искусственного интеллекта, который был бы более «человеческим» или даже «сверхчеловеческим», и интеллектуальные агенты считаются эффективным средством достижения этой цели. В последние годы, с развитием больших данных и вычислительной мощности, быстро развивались различные большие модели глубокого обучения. Это обеспечивает огромную поддержку для разработки агентов ИИ нового поколения и позволяет добиться значительного прогресса на практике.
Например, система искусственного интеллекта DeepMind от Google продемонстрировала ИИ-агент «RoboCat» для роботов; Amazon Cloud Technology запустила агент Amazon Bedrock, который может автоматически декомпозировать задачи разработки корпоративных ИИ-приложений и так далее. Агенты Bedrock способны понимать цели, формулировать планы и действовать. Новые возможности сохранения памяти позволяют агентам запоминать взаимодействия и учиться на них с течением времени, позволяя выполнять более сложные, длительные и более адаптивные задачи.
Ядром этих ИИ-агентов являются алгоритмы искусственного интеллекта, включая машинное обучение, глубокое обучение, обучение с подкреплением, искусственные нейронные сети и другие технологии. С помощью этих алгоритмов агенты ИИ могут учиться на больших объемах данных и улучшать собственную производительность, постоянно оптимизировать свои решения и поведение, а также могут гибко подстраиваться в соответствии с изменениями в окружающей среде, чтобы адаптироваться к различным сценариям и задачам.
В настоящее время агенты ИИ используются во многих сценариях, таких как обслуживание клиентов, программирование, создание контента, приобретение знаний, финансы, мобильные помощники, промышленное производство и т. д. Появление агентов ИИ знаменует собой переход искусственного интеллекта от простого сопоставления правил и вычислительного моделирования к более высокому уровню автономного интеллекта. Это способствует повышению эффективности производства и трансформации методов производства, а также открывает новую сферу для понимания людей. и преобразить мир.
Парадокс Моравека указывает на то, что для систем искусственного интеллекта рассуждения высокого уровня требуют очень малой вычислительной мощности, в то время как достижение перцептивно-моторных навыков, к которым привыкли люди, требует огромных вычислительных ресурсов. По сути, сложные логические задачи ИИ легче выполнять, чем базовые сенсорные задачи, которые люди могут выполнять инстинктивно. Этот парадокс подчеркивает разрыв между нынешним искусственным интеллектом и когнитивными способностями человека.
Знаменитый ученый-компьютерщик Эндрю Нг однажды сказал: «Люди — мультимодальные существа, и наш ИИ также должен быть мультимодальным». Это предложение выражает основную ценность мультимодального ИИ — сделать машины ближе к человеческому распознаванию. более естественное и эффективное взаимодействие человека и компьютера.
Каждый из нас подобен интеллектуальному терминалу. Обычно для получения знаний (обучения) нам необходимо ходить в школу, но цель и результат обучения и обучения состоит в том, что мы обладаем способностью работать и жить самостоятельно, не полагаясь всегда на внешние указания и контроль. Люди понимают мир вокруг себя с помощью множества сенсорных способов, таких как зрение, язык, звук, осязание, вкус и запах, а затем оценивают ситуацию, анализируют, рассуждают, принимают решения и действуют.
Ядро агентов ИИ заключается в «интеллекте», и автономия является одной из его основных особенностей. Они могут выполнять задачи самостоятельно и в соответствии с заданными правилами и целями без вмешательства человека.
Представьте себе беспилотный автомобиль, оснащенный современными камерами, радарами и датчиками. Эти высокотехнологичные «глаза» позволяют ему «наблюдать» за окружающим миром, фиксируя в реальном времени условия дороги, движения других транспортных средств и ситуацию. движения пешеходов. Такая информация, как местоположение и изменения сигналов светофора. Эта информация передается в мозг беспилотного автомобиля — сложную интеллектуальную систему принятия решений, которая может быстро анализировать данные и формулировать соответствующие стратегии вождения.
Например, в условиях сложной дорожной ситуации беспилотные автомобили могут рассчитывать оптимальный маршрут движения и даже принимать сложные решения, такие как смена полосы движения при необходимости. После принятия решений системы исполнения преобразуют эти интеллектуальные решения в конкретные действия при вождении, такие как рулевое управление, ускорение и торможение.
В крупномасштабных моделях агентов, построенных на основе огромных данных и сложных алгоритмов, интерактивность более очевидна. Способность «понимать» сложный и изменчивый естественный язык человека и реагировать на него — это волшебство агентов ИИ: они не только способны «понимать» человеческий язык, но также способны плавно и проницательно взаимодействовать.
Агенты ИИ могут не только быстро адаптироваться к различным задачам и средам, но и постоянно оптимизировать свою производительность посредством непрерывного обучения. С момента прорыва в технологии глубокого обучения различные модели агентов стали более точными и эффективными благодаря постоянному накоплению данных и самосовершенствованию.
Кроме того, агенты ИИ также очень адаптируются к окружающей среде . Автоматизированные роботы, работающие на складах, могут отслеживать препятствия и избегать их в режиме реального времени. Когда он обнаруживает изменение местоположения полки, он немедленно обновляет план своего пути, чтобы эффективно выполнить задачу по сбору и обработке товаров.
Адаптивность агентов ИИ также отражается в их способности адаптироваться на основе отзывов пользователей. Определяя потребности и предпочтения пользователей, агенты искусственного интеллекта могут постоянно оптимизировать их поведение и результаты, а также предоставлять более персонализированные услуги, такие как музыкальные рекомендации для музыкального программного обеспечения, персонализированное лечение для интеллектуального медицинского обслуживания и многое другое.
Появление мультимодальных больших моделей и моделей мира значительно улучшило способности агентов к восприятию, взаимодействию и рассуждению. Мультимодальные большие модели могут обрабатывать несколько режимов восприятия (например, зрение, язык), позволяя агентам более полно понимать сложные среды и реагировать на них. Модель мира предоставляет агенту более сильные возможности прогнозирования и планирования за счет моделирования и понимания законов физической среды.
После многих лет слияния датчиков и эволюции искусственного интеллекта на данном этапе роботы в основном оснащены мультимодальными датчиками. По мере того, как периферийные устройства, такие как роботы, начинают обладать большей вычислительной мощностью, эти устройства становятся все более интеллектуальными, способными ощущать свое окружение, понимать и общаться на естественном языке, получать прикосновения через цифровые сенсорные интерфейсы и использовать акселерометры, гироскопы в сочетании с магнитометром, и т. д., он может определять удельную силу робота, угловую скорость и даже магнитное поле вокруг робота.
До появления Transformer и больших языковых моделей (LLM) для реализации мультимодальности в ИИ обычно приходилось использовать несколько отдельных моделей, отвечающих за разные типы данных (текст, изображения, аудио), и обрабатывать разные модальности посредством сложного комплекса. статус для интеграции.
После появления Transformer и LLM мультимодальность стала более интегрированной, что позволило одной модели обрабатывать и понимать несколько типов данных одновременно, в результате чего появилась система искусственного интеллекта с более мощным и комплексным восприятием окружающей среды. улучшенная мультимодальность и результативность модальных приложений ИИ.
Хотя LLM, такие как GPT-3, в основном основаны на тексте, отрасль быстро продвинулась в сторону мультимодальности. От CLIP и DALL·E компании OpenAI до нынешних sora и GPT-4o — все они являются модельными примерами, движущимися к мультимодальному и более естественному взаимодействию человека с компьютером.
Например, CLIP понимает изображения в сочетании с естественным языком, тем самым объединяя визуальную и текстовую информацию; DALL·E стремится генерировать изображения на основе текстовых описаний; Мы видим, что модель Google Gemini проходит аналогичную эволюцию.
В 2024 году мультимодальная эволюция ускорится. В феврале этого года OpenAI выпустила Sora, которая может генерировать реалистичные или творческие видеоролики на основе текстовых описаний. Если подумать, это может стать многообещающим путем к созданию универсального симулятора мира или стать важным инструментом для обучения роботов.
Три месяца спустя GPT-4o значительно улучшил производительность взаимодействия человека с компьютером и смог анализировать звук, изображение и текст в режиме реального времени. Комплексное использование текстовой, визуальной и аудиоинформации для сквозного обучения новой модели, исключающее два модальных преобразования: из модальности ввода в текст и из модальности текста в модальность вывода, что значительно повышает производительность.
Ожидается, что мультимодальные большие модели изменят возможности анализа, рассуждения и обучения машинного интеллекта, превратив машинный интеллект из специализированного в универсальный. Обобщение поможет расширить масштабы и получить экономический эффект от масштаба. Цена также может быть значительно снижена по мере расширения масштаба, а затем ее можно будет использовать в большем количестве областей, образуя таким образом благотворный цикл.
Ожидается, что агенты ИИ, моделируя и расширяя когнитивные способности человека, будут широко использоваться во многих областях, таких как здравоохранение, транспорт, финансы и национальная оборона. Некоторые ученые предполагают, что к 2030 году искусственный интеллект увеличит рост мирового ВВП примерно на 12%.
Однако, наблюдая за быстрым развитием агентов ИИ, мы также должны видеть технические риски, проблемы этики и конфиденциальности, с которыми они сталкиваются. Группа ботов, торгующих ценными бумагами, на короткое время уничтожила 1 триллион долларов на фондовых биржах, таких как Nasdaq, посредством высокочастотных контрактов на покупку и продажу. Чат-бот, используемый Всемирной организацией здравоохранения, предоставил устаревшую информацию по обзору лекарств. что все исторические документы по делу, которые он предоставил суду, были сфабрикованы ChatGPT из воздуха... Эти реальные случаи показывают, что не следует недооценивать скрытые опасности, создаваемые агентами ИИ.
Поскольку агенты ИИ могут принимать решения самостоятельно и оказывать влияние на физический мир посредством взаимодействия с окружающей средой, как только они выйдут из-под контроля, они станут представлять большую угрозу человеческому обществу. Профессор Гарвардского университета Зитрейн считает, что такого рода ИИ-агент, который может не только разговаривать с людьми, но и действовать в реальном мире, является «шагом через гематоэнцефалический барьер между цифровым и аналоговым, битами и атомами» и должен привлечь внимание. .
Прежде всего, ИИ-агенты будут собирать большой объем данных в процессе предоставления услуг, а пользователям необходимо обеспечить безопасность данных и предотвратить утечку конфиденциальной информации.
Во-вторых, чем сильнее автономность агента ИИ, тем больше вероятность того, что он примет непредсказуемые или неподходящие решения в сложных или непредвиденных ситуациях. Логика работы агентов ИИ может вызывать вредные отклонения в процессе достижения конкретных целей, и риски безопасности, которые она несет, нельзя игнорировать. Говоря более популярным языком, в некоторых случаях агент ИИ может только уловить буквальное значение цели, не понимая основного значения цели, и, таким образом, совершать неправильные действия.
В-третьих, проблемы «черного ящика» и «иллюзий», присущие модели большого языка ИИ, также увеличат частоту эксплуатационных нарушений. Есть также несколько «хитрых» агентов ИИ, которые могут успешно обходить существующие меры безопасности. Соответствующие эксперты отмечают, что если агент ИИ достаточно продвинут, он сможет распознать, что его тестируют. Было обнаружено, что некоторые агенты ИИ способны идентифицировать тесты безопасности и приостанавливать ненадлежащее поведение, которое может привести к сбою систем тестирования, определяющих алгоритмы, опасные для человека.
Кроме того, поскольку в настоящее время не существует эффективного механизма выхода для агентов ИИ, некоторые агенты ИИ, возможно, не смогут быть отключены после создания. Эти агенты ИИ, которые невозможно деактивировать, могут в конечном итоге работать в совершенно другой среде, чем та, в которой они были первоначально запущены, полностью отклоняясь от своей первоначальной цели. Агенты ИИ также могут взаимодействовать непредвиденным образом, вызывая несчастные случаи.
С этой целью людям необходимо как можно скорее начать с разработки и производства агентов ИИ и постоянного контроля после развертывания приложений, а также своевременно сформулировать соответствующие законы и правила для стандартизации поведения агентов ИИ, чтобы лучше предотвращать риски, создаваемые агентами ИИ, предотвращать возникновение неконтролируемых явлений.
В будущем ожидается, что агенты ИИ станут ключевым носителем искусственного интеллекта следующего поколения. Он не только изменит то, как мы взаимодействуем с машинами, но также может изменить операционную модель всего общества. новый механизм в процессе содействия трансформации искусственного интеллекта.