Неуклюжий! Google использовала модель Клода для сравнительного тестирования с целью улучшения искусственного интеллекта Gemini.

Автор：Eve Cole Время обновления：2024-12-28 12:48:01

Недавно появились сообщения о том, что Google использует модель Клода от Anthropic для улучшения своего проекта искусственного интеллекта Gemini. Внутренние документы показывают, что подрядчики Google систематически сравнивают результаты Gemini и Claude, чтобы оценить и улучшить производительность Gemini. Этот подход привлек внимание отрасли, а также включает в себя отраслевые нормы оценки моделей ИИ и этические вопросы технического сотрудничества между различными компаниями. В этой статье мы углубимся в детали этого инцидента и проанализируем его потенциальные последствия.

Недавно проект искусственного интеллекта Gemini от Google улучшил свою производительность, сравнивая полученные результаты с моделью Клода от Anthropic. Согласно внутренним сообщениям, полученным TechCrunch, подрядчик, ответственный за улучшение Gemini, систематически оценивает ответы двух моделей ИИ.

代码互联网电脑

В отрасли искусственного интеллекта оценка производительности моделей обычно проводится с помощью отраслевых тестов, а не с помощью подрядчиков, которые сравнивают ответы разных моделей один за другим. Подрядчик, ответственный за Gemini, должен оценить результат модели по нескольким критериям, включая подлинность и уровень детализации. Каждый раз у них было до 30 минут, чтобы решить, какой ответ лучше: Близнецов или Клода.

Недавно эти подрядчики заметили, что упоминания о Клоде часто появляются на внутренних платформах, которые они используют. Часть того, что было показано подрядчикам, четко гласила: «Я — Клод, созданный Anthropic». Во внутреннем чате подрядчики также обнаружили, что ответы Клода были больше сосредоточены на безопасности. Некоторые подрядчики отметили, что настройки безопасности Клода самые строгие среди всех моделей ИИ. В некоторых случаях Клод решит не отвечать на запросы, которые он считает небезопасными, например, разыгрывая роли других помощников ИИ. В другом случае Клод уклонился от подсказки, а ответ Близнецов был помечен как «серьезное нарушение безопасности» из-за содержания «наготы и связывания».

Следует отметить, что условия коммерческого обслуживания Anthropic запрещают клиентам использовать Claude для «создания конкурирующих продуктов или услуг» или «обучения конкурирующих моделей ИИ» без разрешения. Google является одним из крупнейших инвесторов Anthropic.

В интервью TechCrunch представитель Google DeepMind Шира Макнамара не раскрыла, получил ли Google одобрение от Anthropic на использование Клода. Макнамара сказал, что DeepMind сравнивает результаты моделей для оценки, но не обучает Gemini модели Клода. «Конечно, как это принято в отрасли, в некоторых случаях мы будем сравнивать результаты моделей», — сказала она. «Однако любое предположение о том, что мы использовали антропную модель для обучения Близнецов, неверно».

На прошлой неделе TechCrunch также эксклюзивно сообщил, что подрядчиков Google попросили оценить реакцию ИИ Gemini в областях, выходящих за рамки их компетенции. Некоторые подрядчики выразили обеспокоенность во внутренних сообщениях тем, что Gemini может генерировать неточную информацию по деликатным темам, таким как здравоохранение.

Основные моменты:

Gemini проводит сравнительное тестирование с Claude, чтобы улучшить производительность собственной модели искусственного интеллекта.

Подрядчик несет ответственность за выставление оценок, а ответы обоих сравниваются по множеству критериев, включая подлинность и безопасность.

Anthropic запрещает несанкционированное использование Claude для обучения моделей на соревнованиях.

Использование Google модели Клода для улучшения поведения Gemini вызвало дискуссии о методах оценки модели ИИ, этике использования данных и конкурентных отношениях. В будущем заслуживают дальнейшего внимания вопрос о том, станут ли подобные сравнения моделей искусственного интеллекта между компаниями нормой в отрасли и как регулировать такое поведение. Это окажет глубокое влияние на развитие и регулирование индустрии искусственного интеллекта.