Редактор Downcodes поможет вам понять «альтернативные способы использования» научных статей! В последние годы источник данных для обучения моделей ИИ привлек широкое внимание. Многие академические издатели «упаковывают и продают» исследовательские работы технологическим компаниям с целью улучшения возможностей систем ИИ. Это привело к огромным сделкам и вызвало бурные дискуссии в академическом сообществе о правах интеллектуальной собственности, правах авторов и этике разработки ИИ. В этой статье мы углубимся в механизмы, последствия и будущие тенденции, лежащие в основе этого явления.
Вы когда-нибудь задумывались, что ваша исследовательская работа может быть использована для обучения ИИ? Да, многие академические издатели «упаковывают и продают» свои результаты технологическим компаниям, разрабатывающим модели искусственного интеллекта. Нет сомнений в том, что этот шаг вызвал настоящий переполох в научно-исследовательском сообществе, особенно когда авторы ничего о нем не знают. Эксперты говорят, что если ваша модель еще не используется в большой языковой модели (LLM), есть большая вероятность, что она будет использоваться в ближайшем будущем.
Недавно британское научное издательство Taylor & Francisco заключило с Microsoft сделку на 10 миллионов долларов, позволяющую технологическому гиганту использовать данные своих исследований для улучшения возможностей своих систем искусственного интеллекта. Уже в июне американский издатель Wiley также заключил сделку с компанией и получил доход в размере 23 миллионов долларов США в обмен на использование их контента для обучения генеративных моделей искусственного интеллекта.
Если статья доступна в Интернете, будь то в открытом доступе или за платным доступом, вполне вероятно, что она была внедрена в какую-то большую языковую модель. «Как только бумага используется для обучения модели, ее нельзя удалить после обучения модели», — сказала Люси Лу Ванг, исследователь искусственного интеллекта из Вашингтонского университета.
Большие языковые модели требуют для обучения больших объемов данных, которые часто берутся из Интернета. Анализируя миллиарды фрагментов языка, эти модели способны обучаться и генерировать беглый текст. Академические статьи стали очень ценным «сокровищем» для разработчиков LLM из-за их высокой плотности информации и большого объема. Такие данные помогают ИИ делать более точные выводы в науке.
В последнее время растет тенденция покупки высококачественных наборов данных, и многие известные СМИ и платформы начали сотрудничать с разработчиками ИИ для продажи своего контента. Учитывая, что без соглашения многие работы могут быть скрыты молча, в будущем такого рода сотрудничество станет только более распространенным.
Однако некоторые разработчики ИИ, такие как Крупномасштабная сеть искусственного интеллекта, предпочитают держать свои наборы данных открытыми, но многие компании, разрабатывающие генеративный ИИ, хранят свои данные обучения в секрете. О данных обучения ничего не известно. Эксперты полагают, что исходный код открыт». такие платформы, как arXiv, и такие базы данных, как PubMed, несомненно, являются популярными целями для сканирования компаний, занимающихся искусственным интеллектом.
Непросто доказать, появляется ли определенная статья в обучающем наборе определенного LLM. Исследователи могут использовать необычные предложения из статьи, чтобы проверить, соответствуют ли выходные данные модели исходному тексту, но это не доказывает полностью, что статья не использовалась, поскольку разработчики могут настроить модель, чтобы избежать прямого вывода обучающих данных.
Даже если будет доказано, что LLM использовал определенный текст, что будет дальше? Издатели заявляют, что несанкционированное использование текста, защищенного авторским правом, представляет собой нарушение авторских прав, но есть также возражения, что LLM не копирует текст, а создает новый текст? путем анализа содержания информации.
В настоящее время в Соединенных Штатах идет судебный процесс по авторскому праву, который может стать знаковым делом. The New York Times подает в суд на Microsoft и разработчика ChatGPT OpenAI, обвиняя их в использовании ее новостного контента для обучения моделей без разрешения.
Многие ученые приветствуют включение их работ в обучающие данные LLM, особенно когда эти модели могут повысить точность исследований. Однако не все исследователи этой профессии относятся к этому спокойно, и многие чувствуют, что их работа находится под угрозой.
В целом, отдельные научные авторы в настоящее время мало влияют на решения издателей о продажах, и не существует четкого механизма распределения кредитов и их использования для опубликованных статей. Некоторые исследователи выразили разочарование: «Мы надеемся на помощь моделей ИИ, но мы также надеемся на справедливый механизм. Мы еще не нашли такого решения».
Ссылки:
https://www.nature.com/articles/d41586-024-02599-9
https://arxiv.org/pdf/2112.03570
Будущее направление развития искусственного интеллекта и научных публикаций до сих пор неясно, а вопросы авторского права, конфиденциальности данных и механизмов защиты прав и интересов авторов требуют дальнейшего совершенствования. Это не только игра между издателями и технологическими компаниями, но и серьезный вопрос, связанный с устойчивым развитием академических исследований и этикой технологий искусственного интеллекта, который требует совместного внимания и усилий всего общества.