Цукерберг знает, что Meta использует пиратские библиотечные данные для обучения ИИ - статья об искусственном интеллекте

Автор：Eve Cole Время обновления：2025-01-26 14:32:01

Компания Meta вызвала огромные споры по поводу источника обучающих данных для своего последнего чат-бота с искусственным интеллектом Llama3. Согласно раскрытым документам, Meta использовала пиратский сайт электронных книг Library Genesis (LibGen) для обучения Llama3, что вызвало широко распространенную обеспокоенность по поводу авторских прав и владения данными. Хотя сотрудники Meta выразили обеспокоенность по поводу рисков использования LibGen, включая потенциальные юридические риски и негативную огласку, генеральный директор Цукерберг все же одобрил это решение, подчеркнув агрессивную тактику и защиту авторских прав крупных технологических компаний в гонке безразличия к ИИ.

Недавно, когда всплыли документы, раскрытые Meta в групповом иске по авторскому праву, компания использовала пиратскую библиотеку электронных книг под названием Library Genesis (LibGen) для обучения своего последнего чат-бота с искусственным интеллектом Llama3, который привлек всеобщее внимание. Документы показывают, что инженеры Meta обсуждали потенциальные риски использования LibGen, «теневой библиотеки», особенно на фоне растущей обеспокоенности по поводу авторских прав и владения данными. Несмотря на потенциальное негативное влияние и риск огласки, генеральный директор Meta Марк Цукерберг одобрил это решение.

图书馆书房阅读 (3)

По требованию суда были рассекречены записи конфиденциальных разговоров внутри Meta об использовании набора данных LibGen. Документы показывают, что руководители Meta в беседах с исследовательской группой по искусственному интеллекту ясно дали понять, что данные LibGen «нам известны». быть пиратским." Согласитесь использовать эти данные для улучшения производительности Llama3. В электронном письме директор по управлению продуктами Meta Sony Theakanath отметил, что, хотя решение использовать LibGen вызвало риски для общественного мнения, другие компании, занимающиеся искусственным интеллектом, также используют аналогичные данные, что заставляет команду Meta чувствовать, что этот путь не является изолированным.

Еще более тревожно то, что сотрудники Meta также обсуждали, как обрабатывать и фильтровать текст в LibGen, чтобы удалить пометки об авторских правах, такие как ISBN, и уведомления об авторских правах. Во внутренней записке говорится, что материалы, предоставленные LibGen, были «высококачественными и объемными, что делало их идеальными для изучения особо специализированных предметов». Это говорит о том, что Meta, похоже, пытается скрыть использование несанкционированного контента.

Кроме того, сотрудники Meta также упомянули в электронном письме, что напрямую использовать IP-адрес компании для загрузки торрентов может быть неуместно, и выразили обеспокоенность по поводу такого поведения. Однако, когда Цукерберг «подталкивает сверху» к использованию набора данных LibGen, ясно проявляется менталитет победы Meta в гонке ИИ. Этот инцидент в очередной раз вызвал внимание и сомнения в вопросах авторских прав крупных технологических компаний.

Исход этого иска об авторских правах может иметь важные последствия для других подобных дел, находящихся в стадии рассмотрения, особенно в отношении использования творческих произведений, таких как изображения, музыка и литература. Поскольку спрос технологических компаний на оригинальный контент продолжает расти, права создателей оригинального контента окажутся в центре внимания.

Этот инцидент не только выявил безответственное отношение Меты к вопросам авторского права, но и спровоцировал глубокие размышления людей по этическим и юридическим вопросам развития ИИ. В будущем вопрос о том, как сбалансировать технологическое развитие и защиту интеллектуальной собственности, станет важным вопросом, требующим совместных усилий внутри и за пределами отрасли для поиска решений.