Когда появятся суперприложения? Это, пожалуй, самое распространенное беспокойство в индустрии искусственного интеллекта за последний год.
Людям легко сравнить искусственный интеллект с компьютерным Интернетом или мобильным Интернетом. Через несколько лет после появления того и другого у них появились популярные суперприложения. Однако искусственный интеллект — это технологическая волна уровня промышленной революции. Время появления суперприложений искусственного интеллекта более сопоставимо со временем появления суперприложений после появления паровых двигателей и электричества.
В 1776 году был изготовлен первый паровой двигатель, имеющий практическое значение, который стал универсальным тягачом, что привело человеческое общество в «эру пара». Лишь в 1800-х годах паровые машины стали широко использоваться на железных дорогах и в судоходстве. сектора. Второй закон термодинамики появился почти 100 лет спустя; электрическая революция также была эволюционным процессом. Изобретение электроэнергии положило начало второй промышленной революции. Электростанции, электрическое освещение, сборочные линии и т. д. появились после электричества. Новый формат бизнеса, который постепенно развивался на протяжении десятилетий.
Поэтому суперприложения в эпоху искусственного интеллекта обязательно появятся, но время еще не пришло. В прошлом году индустрия искусственного интеллекта занималась так называемыми «суперприложениями», которые, похоже, немного стремятся к быстрому успеху.
Как базовая технология, большие модели не имеют непосредственной практической ценности. Различные приложения, построенные на основе базовой большой модели, являются смыслом существования модели. Для разработчиков приложений ИИ и предпринимателей лучшая стратегия, очевидно, — не придерживаться AGI или «суперприложений», а делать небольшие шаги и продолжать итерации для создания суперполезных приложений.
Недавно, на Всемирной конференции Baidu 2024 года, компания Baidu объявила последние данные по своей большой модели Wenxin Big Model: полгода назад ежедневные вызовы API Wenxin Big Model составляли 200 миллионов, а теперь их число превышает 1,5 миллиарда, увеличившись в 7,5 раз. всего шесть месяцев. Это не только краткий обзор бурного роста приложений ИИ в Китае, но и показывает, что большие модели действительно приносят практическую пользу приложениям.
В течение долгого времени было трудно продавать крупные отечественные модели другим отраслям. Инсайдер отрасли однажды рассказал 36Kr: «Будь то интеллектуальное оборудование или агенты искусственного интеллекта, спрос в отрасли очень велик, но мало кто действительно готов. Платите по счетам, потому что поколение крупных моделей настолько бедно, и повсюду есть иллюзии». Ограниченный развитием мультимодальных возможностей, первоначальный пользовательский опыт генеративного искусственного интеллекта ближе к опыту простого диалогового бота. Первоначально у пользователей есть потребность в ранних последователях, но из-за посредственного опыта удержание остается плохим.
Самым большим изменением в больших моделях за последний год стало то, что «иллюзия» была практически устранена и модели стали пригодными для использования. Большая модель по сути является вероятностной моделью. При генерации текста автоматически генерируется следующий наиболее вероятный текст, что приводит к тому, что ИИ часто испытывает «галлюцинации», что является так называемой «серьезной ерундой».
Если вы хотите разрабатывать приложения на основе больших моделей, вам необходимо устранить «иллюзии». Индустрия искусственного интеллекта обычно использует технологию улучшения поиска (RAG, Retrival-Augmented Generation), чтобы в основном устранить иллюзию текста, генерируемого большими моделями, благодаря чему большие модели имеют практическую ценность. Чтобы быть практичной, мультимодальная технология также нуждается в точности и управляемости для расширения области применения ИИ.
На этой всемирной конференции компания Baidu представила новую технологию iRAG (RAG на основе изображений) — технологию улучшенного поиска на основе изображений. В начале этого года Baidu решила решить проблему мультимодальной генерации «иллюзий», чтобы фотографии Винсента также могли устранять иллюзии, тем самым попадая в сферу кино- и телеработ, комиксов, комиксов, плакатов. производство и другие сферы.
Например, автомобильная промышленность во многом зависит от маркетинга и часто требует большого количества высококачественных фотографий. Для создания идеального изображения требуется много человеческих, финансовых и материальных ресурсов. Используя технологию iRAG, автомобильные компании могут получить фотографии с выдающимися визуальными характеристиками при очень низких затратах и в более короткие сроки. Это может быть даже более визуально ошеломляющим.
В настоящее время технический путь генеративного искусственного интеллекта в основном разделен на две школы: одна — это школа AGI, которая мечтает достичь общего искусственного интеллекта за несколько лет с помощью базовых больших моделей, другая — это школа, основанная на приложениях, которая начинается; от потребностей и использования приложений. Применяйте модели обратной связи для инноваций.
На основе непрерывных исследований и разработки крупномасштабных базовых моделей Baidu уделяет больше внимания разработке на основе приложений. Понятно, что iRAG используется, потому что приложениям необходимо генерировать точные изображения. Например, логотип компании не может быть деформирован или искажен цвет, что требует точных мультимодальных возможностей. После почти года упорной работы эта технология стала практичной. Ход применения также может влиять на исследования и разработку самой модели.
Спустя два года генеративный ИИ переживает критический период переключения передач. 36Kr ранее сообщил, что два отечественных стартапа в области искусственного интеллекта приостановили предварительное обучение крупных моделей. За последние два дня в отрасли усилились дебаты о том, достиг ли закон масштабирования «снижающейся отдачи от инвестиций».
Фактически, в глобальном масштабе изменения уже начались. Мировые технологические гиганты, такие как OpenAI, Microsoft и Google, последовательно ушли в отставку и развернули интеллектуальных агентов. В середине сентября исследователь OpenAI Ноам Браун объявил в социальных сетях, что набирает инженеров по машинному обучению в новую многоагентную исследовательскую группу. Генеральный директор и председатель Microsoft Наделла лично объявил о новом прогрессе своего собственного искусственного интеллекта, выпустил за один раз 10 новых агентов бизнес-аналитики и сформировал группу для дебюта. Почти в то же время появилась новость о том, что Google также собирается выпустить интеллектуального агента. Вскоре Google «случайно» слил «внутреннюю предварительную версию» последнего результата разработки ИИ Джарвиса, который представляет собой искусственный интеллект агентного типа, который может. просматривать Интернет и искать информацию самостоятельно.
Baidu возглавляет тенденцию умных агентов в Китае. На Всемирной конференции Baidu главным героем стал интеллектуальный агент. Baidu фокусируется на четырех типах агентов: тип компании, тип роли, тип инструмента и тип отрасли.
Например, подобный инструменту агент «Free Canvas»: основанный на долгосрочном накоплении библиотечного бизнеса Baidu в первые годы и наложенный на генеративную технологию искусственного интеллекта, он добился большого скачка в творчестве.
В первые годы потребность людей в использовании библиотек заключалась в поиске готовых документов. Однако, когда появилась технология генеративного искусственного интеллекта, Baidu обнаружила, что самая фундаментальная потребность людей — не найти готовый документ, а создать контент, который им больше подходит.
Чтобы удовлетворить такие потребности, Baidu начала думать о том, как дать людям возможность лучше творить на основе готовых документов или без материальной основы. Следуя по этому пути, была реконструирована самая ранняя библиотека Baidu. Позже Baidu выпустила независимый продукт Orange Pian, который позволяет создавать длинные статьи одним щелчком мыши. Рождение Free Canvas также основано на этой логике, позволяя людям более удобно «передавать свои идеи». С точки зрения непрофессионала, это означает, как. выражать свои сокровенные мысли более удобно и точно.
Робин Ли, основатель Baidu, считает, что «агенты являются наиболее распространенной формой приложений искусственного интеллекта и вот-вот наступят точка их взрыва». Аналогией создания агентов является создание веб-сайтов в эпоху ПК или создание средств массовой информации. аккаунт в эпоху мобильных устройств. Разница в том, что агент более похож на человека, более умен и больше похож на вашего продавца, специалиста по обслуживанию клиентов и помощника. Агенты могут стать новыми носителями контента, информации и услуг в эпоху искусственного интеллекта.
Генеральный директор OpenAI Сэм Альтман также выразил возможность обратиться к разработчикам агентов ИИ, отвечая на вопрос на Reddit в прошлом месяце. «У нас будут появляться все лучшие и лучшие модели, но я думаю, что следующим большим прорывом станут агенты ИИ». Дженсен Хуан из NVIDIA также заявил, что в будущем у NVIDIA будет 100 миллионов интеллектуальных агентов.
Характеристика интеллектуального агента заключается в том, что порог достаточно низок, а потолок достаточно высок, и он может вырасти в очень мощную компанию. Точно так же, как Google и Meta, которые были основаны студентами колледжа много лет назад, в которую они превратились. самые мощные технологические гиганты мира. В определенной степени не создать интеллектуальный агент сейчас — это все равно, что не создать веб-сайт двадцать лет назад или приложение десять лет назад.
Лишь немногие китайские компании сыграли такую важную роль в поиске талантов, ресурсов и технологий глобального развития искусственного интеллекта, как Baidu. Помимо этого, оно неотделимо от веры и настойчивости основателя в области искусственного интеллекта. В отрасли у Робина Ли есть классическая поговорка: «Когда у меня будет 1 юань, я буду инвестировать в технологии; когда у меня будет 100 миллионов, я буду инвестировать в технологии; когда у меня будет 10 миллиардов, я все равно буду инвестировать в технологии». .
Работу Baidu по искусственному интеллекту можно проследить до знаменитого аукциона, состоявшегося более десяти лет назад. Однажды в декабре 2012 года у подножия горнолыжной горы к югу от озера Тахо в Неваде, США, прошел секретный аукцион. Активы, выставленные на аукционе, на самом деле принадлежали «трем людям» — профессору Джеффри Э. Хинтону, «крестному отцу искусственного интеллекта», и двум его ученикам.
Представители Baidu, Google, Microsoft и DeepMind часто повышали свои ставки, и предложение взлетело до $44 млн. К этому моменту среди участников остались только Baidu и Google. Хотя Baidu участвовала в аукционе без верхнего предела, в конечном итоге он оказался неудачным.
Это также заставило Робина Ли осознать, что он должен самостоятельно развивать глубокое обучение, автономное вождение и другие технологии. После этого он основал научно-исследовательский институт Baidu America и начал активно привлекать таланты со всего мира. С тех пор он успешно привлекает таланты, в том числе Нг Энда. , Дарио Амодей и др. Присоединяются лучшие таланты со всего мира.
В следующие десять лет Baidu начала период полноценных самоисследований в области технологий искусственного интеллекта: от чипов, фреймворков, моделей до уровней приложений, побеждая их один за другим. Baidu последовательно выпустила открытую платформу для автономного вождения Apollo, открыла исходный код платформы глубокого обучения PaddlePaddle и даже выпустила версию 1.0 большой модели Wenxin в начале 2019 года.
Однако до появления ChatGPT применение технологии искусственного интеллекта не нашло переломного момента. В отрасли это рассматривалось как бездонная яма денег, и до ее практического применения еще далеко.
Настойчивость всегда окупается. Разворот произошел в марте 2023 года. На основе версии 3.0 большой модели Wenxin компания Baidu первой в мире выпустила продукт Wenxin Yiyan, сравнивающий ChatGPT. На этом этапе десять лет молчаливых инвестиций наконец окупились.
Начиная со второй половины 2023 года, гарантируя, что базовая модель продолжит лидировать, Baidu внезапно осознала, что однородная конкуренция крупных моделей привела к огромной трате ресурсов. Робин Ли много раз публично призывал «перерабатывать приложения, а не менять их». моделей.» и попросил внутри компании стать первой компанией, которая реконструирует все продукты с использованием больших моделей. На Всемирной конференции 2023 года Baidu продемонстрировала внешнему миру результаты реконструкции важных приложений, таких как поиск, карты и сетевые диски. На Всемирной конференции этого года тема Baidu была прямо задана как «Приложения приближаются», что позволило внешнему миру см. крупномасштабную модель в разделе «Огромная ценность, созданная в области интеллектуальных тел, промышленного применения и других областях».
Оглядываясь назад, нетрудно увидеть, что Baidu сделала правильный выбор на каждом важном этапе развития глобального искусственного интеллекта за последнее десятилетие. Робин Ли надеется, что в более отдаленном будущем ИИ действительно сможет использовать каждый обычный человек, так что каждый сможет обладать способностями программиста.
На Всемирной конференции Baidu Робин Ли также представил One More Thing - Miaida, программное обеспечение без программирования, с возможностью совместной работы нескольких агентов и вызова нескольких инструментов.
Miaida сильно отличается от любых предыдущих вспомогательных инструментов генерации кода тем, что не требует от пользователей понимания кода. Напротив, предыдущие инструменты ИИ, как инструменты повышения производительности, были больше ориентированы на усиление возможностей элиты на вершине пирамиды. Например, в Кремниевой долине генерация вспомогательного кода очень важна, поскольку в США не хватает инженеров. а почасовая оплата инженеров также очень дорога. Вспомогательные инструменты могут повысить эффективность и сделать тех, кто находится на вершине пирамиды, более влиятельными.
Но ИИ должен быть чем-то, от чего может извлечь выгоду каждый, а не быть патентом, используемым немногими.
По мере постепенного улучшения возможностей базовых моделей и агентов Baidu интегрирует эти технические возможности, чтобы позволить обычным людям, которые не могут понять ни строчки кода, обладать возможностями программистов.
Только представьте, когда этой способностью будут обладать сотни миллионов или более миллиарда человек, это будет соответствовать огромному рыночному пространству, особенно взрыву творчества, которому нет равных среди таких технологий, как вспомогательные инструменты генерации кода. Baidu надеется, что каждый обычный человек может обладать способностями тех, кто находится на вершине пирамиды, и это, естественно, имеет более глубокое значение.
Робин Ли заявил во время конференции: «Baidu не собирается запускать «суперприложение», но продолжит помогать большему количеству людей и большему количеству компаний создавать миллионы «суперполезных» приложений».
Только представьте, что в эпоху искусственного интеллекта все больше и больше людей могут научиться создавать новые продукты и услуги и использовать программирование на естественном языке — творческое и низкопороговое действие — для реализации некоторых диких идей и создания бесчисленных ценных продуктов. это и есть истинная инклюзивность технологий.