Recientemente, Elon Musk expresó su preocupación por el agotamiento de los datos de entrenamiento de inteligencia artificial en una transmisión en vivo. Cree que los datos utilizados para entrenar modelos de IA en el mundo real están a punto de agotarse. Este punto de vista se hace eco de los puntos de vista de otros expertos en el campo de la IA, lo que desencadena el pensamiento de la industria sobre futuros modelos de desarrollo de IA. Musk cree que los datos sintéticos serán una solución clave al problema de la escasez de datos, y señala que muchas empresas de tecnología han comenzado a adoptar este enfoque, lo que tendrá un profundo impacto en la forma y el costo de entrenar modelos de IA.
En una reciente conversación transmitida en vivo, el director ejecutivo de Tesla y SpaceX, Elon Musk, dijo que los datos del mundo real disponibles para entrenar modelos de inteligencia artificial casi se han agotado. La persona que mantuvo la conversación con él fue Mark Payne, presidente de la junta directiva de Stagwell. Musk mencionó: "Básicamente hemos consumido toda la acumulación de conocimiento humano... los datos utilizados para el entrenamiento de inteligencia artificial. Este fenómeno básicamente ocurrió el año pasado".
La opinión de Musk es similar a la teoría del “pico de datos” propuesta por el ex científico jefe de OpenAI, Ilya Sutskov, en la conferencia NeurIPS en diciembre del año pasado. Suzkofer dijo que la industria de la IA se enfrenta al desafío de la escasez de datos, y la falta de datos de entrenamiento suficientes en el futuro obligará a cambiar la forma en que se desarrollan los modelos de IA.
Para solucionar este problema, Musk cree que los datos sintéticos se convertirán en una alternativa viable. Señala que la única forma de complementar los datos del mundo real es a través de datos sintéticos, donde la IA genera sus propios datos de entrenamiento. Musk dijo que la IA puede mejorar el rendimiento autoevaluando y optimizándose continuamente.
Actualmente, muchas empresas tecnológicas como Microsoft, Meta, OpenAI y Anthropic han comenzado a utilizar datos sintéticos para entrenar sus principales modelos de IA. Gartner predice que para 2024, el 60% de los datos utilizados en proyectos de inteligencia artificial y análisis de datos se generarán sintéticamente.
Una ventaja significativa de los datos sintéticos es que los costos de desarrollo se pueden reducir significativamente. Sin embargo, Musk y otros expertos también señalan que los datos sintéticos no están exentos de riesgos. Las investigaciones muestran que los datos sintéticos pueden hacer que el rendimiento del modelo se degrade y los resultados pueden ser menos innovadores y potencialmente verse afectados por sesgos. Si los datos sintéticos en sí tienen limitaciones, el resultado del modelo final también estará plagado de estos problemas.
Destacar:
A Musk le preocupa que los datos del mundo real disponibles para entrenar la IA estén casi agotados.
Los datos sintéticos se consideran una solución importante para el futuro y muchas empresas de tecnología ya los están adoptando.
El uso de datos sintéticos puede reducir significativamente los costos de desarrollo, pero también conlleva el riesgo de degradar el rendimiento del modelo.
Con todo, el problema de quedarse sin datos de entrenamiento de inteligencia artificial es inminente. Aunque los datos sintéticos brindan nuevas oportunidades, también presentan desafíos. La dirección futura del desarrollo de la IA dependerá de cómo utilizar y mejorar eficazmente los datos sintéticos, equilibrar sus costos y riesgos y, en última instancia, lograr un progreso continuo en la tecnología de la IA.