Недавно Илон Маск в прямом эфире выразил обеспокоенность по поводу истощения данных для обучения искусственного интеллекта. Он считает, что данные, используемые для обучения моделей ИИ в реальном мире, близки к исчерпанию. Эта точка зрения перекликается с мнением других экспертов в области ИИ, что побуждает отрасль задуматься о будущих моделях развития ИИ. Маск считает, что синтетические данные станут ключевым решением проблемы нехватки данных, отмечая, что многие технологические компании начали применять этот подход, что окажет глубокое влияние на способ и стоимость обучения моделей ИИ.
В недавней прямой трансляции генеральный директор Tesla и SpaceX Илон Маск заявил, что реальные данные, доступные для обучения моделей искусственного интеллекта, почти исчерпаны. Человеком, который с ним разговаривал, был Марк Пейн, председатель совета директоров Stagwell. Маск отметил: «Мы в основном израсходовали все накопленные человеческие знания… данные, используемые для обучения искусственному интеллекту. По сути, этот феномен произошел в прошлом году».
Точка зрения Маска аналогична теории «пика данных», предложенной бывшим главным научным сотрудником OpenAI Ильей Суцковым на конференции NeurIPS в декабре прошлого года. Сузкофер сказал, что индустрия искусственного интеллекта сталкивается с проблемой нехватки данных, а отсутствие достаточных обучающих данных в будущем приведет к изменениям в способах разработки моделей искусственного интеллекта.
Для решения этой проблемы, по мнению Маска, жизнеспособной альтернативой станут синтетические данные. Он указывает, что единственный способ дополнить реальные данные — это использовать синтетические данные, когда ИИ генерирует свои собственные обучающие данные. Маск сказал, что ИИ может повысить производительность за счет самооценки и постоянной оптимизации.
В настоящее время многие технологические компании, такие как Microsoft, Meta, OpenAI и Anthropic, начали использовать синтетические данные для обучения своих основных моделей ИИ. Gartner прогнозирует, что к 2024 году 60% данных, используемых в проектах искусственного интеллекта и анализа данных, будут генерироваться синтетически.
Существенным преимуществом синтетических данных является то, что затраты на разработку можно значительно снизить. Однако Маск и другие эксперты также отмечают, что синтетические данные не лишены рисков. Исследования показывают, что синтетические данные могут привести к ухудшению эффективности модели, а результаты могут быть менее инновационными и потенциально подвержены предвзятости. Если сами синтетические данные имеют ограничения, выходные данные окончательной модели также будут подвержены этим проблемам.
Выделять:
Маск обеспокоен тем, что реальные данные, доступные для обучения ИИ, практически исчерпаны.
Синтетические данные считаются важным решением будущего, и многие технологические компании уже применяют их.
Использование синтетических данных может значительно снизить затраты на разработку, но также несет в себе риск ухудшения производительности модели.
В целом, проблема нехватки данных для обучения искусственному интеллекту неизбежна. Хотя синтетические данные открывают новые возможности, они также создают проблемы. Будущее направление развития ИИ будет зависеть от того, как эффективно использовать и улучшать синтетические данные, сбалансировать затраты и риски и, в конечном итоге, добиться дальнейшего прогресса в технологиях ИИ.