El 5 de septiembre, Shun Xiangyang, presidente de la Junta Directiva de la Universidad de Ciencia y Tecnología de Hong Kong y académico extranjero de la Academia Nacional de Ingeniería, compartió sus ocho pensamientos sobre la implementación de la industria de modelos a gran escala en la Inclusión 2024. ·Conferencia del Bund. Él cree que la llegada de la era del agente AI no será un modelo mágico y poderoso que reemplace repentinamente todos los flujos de trabajo. Implica la integración continua de tecnología, ingeniería y mercado, y finalmente presenta servicios a los humanos que superan las expectativas.
Pensamiento 1: la potencia informática es el umbral "Hoy en día, cuando se hacen modelos grandes y aprendizaje profundo, lo primero y más importante es tener potencia informática", dijo Shen Xiangyang. Señaló que desde 2010, la potencia informática necesaria para los modelos grandes se ha multiplicado por 6 o 7. Se ha estabilizado en los últimos años y ha crecido aproximadamente 4 veces cada año. El modelo es cada vez más grande, el número de parámetros es cada vez mayor y la demanda de potencia informática también crece en una dirección plana a medida que aumentan los parámetros. En su opinión, el desarrollo de toda la industria de chips de computadora ha cambiado de la "Ley de Moore" original a la "Ley de Huang". La Ley de Moore solía sostener que la potencia informática se duplicaba cada 18 meses. Ahora se predice que la GPU hará que la potencia informática de la IA se duplique año tras año. "Hablar de cartas duele, pero no hay emoción si no tienes cartas. Solía decirse que la pobreza limita la imaginación, pero ahora la pobreza puede distorsionar la imaginación, porque si no hay cartas, los proyectos que Se puede imaginar que puede ser diferente ". Shen Xiangyang suspiró con emoción. camino. Pensamiento 2: Datos sobre datos La información pública muestra que los datos de entrenamiento de GPT3 alcanzaron un token (rendimiento) de 2 T, y los de GPT4 alcanzaron aproximadamente 12 T. Según la predicción de Shun Xiangyang, los datos de entrenamiento de GPT5 pueden llegar a 200 T. Los datos actuales en Internet están lejos de satisfacer las necesidades de la formación de modelos futuros y debemos pensar en formas de extraer más datos. En el campo de la inteligencia artificial, los datos se consideran el "combustible" del modelo, y el modelo necesita aprender y extraer información útil de estos datos. Por tanto, la cantidad, calidad y diversidad de los datos afectarán directamente la precisión y el rendimiento del modelo. Shen Xiangyang dijo que en el pasado, como acumulación central de Internet, Google utilizaba la mayoría de los datos para crear motores de búsqueda. En el futuro, estos datos se utilizarán para entrenar modelos grandes. "Los datos acumulados por Internet durante los últimos 40 años parecen ser justos para ese momento de IA". Pensamiento 3: El próximo capítulo del gran modelo ¿Qué sigue? Shen Xiangyang cree que el camino de desarrollo futuro de la industria de los grandes modelos es muy claro y pasará del modelo de lenguaje grande anterior al modelo multimodal y hacia el modelo mundial en el futuro. Técnicamente hablando, debemos tomar el camino de unificar la comprensión y la generación. "El futuro definitivamente avanzará en la dirección de la inteligencia corporal y los robots. Una de las formas especiales es la conducción autónoma", afirmó Shen Xiangyang. De hecho, no existe una definición estándar de modelo mundial en la industria. El modelo sora lanzado por OpenAI ha provocado debates sobre el "modelo mundial" en la industria. OpenAI lo considera la base para modelos que pueden comprender y simular el mundo real, y cree que sus capacidades son un hito importante para lograr AGI (inteligencia general artificial). Sin embargo, Shun Xiangyang cree que "aunque el modelo de Sora es muy bueno, no es tan poderoso. Las propiedades físicas que contiene no se pueden garantizar y no puede ser un modelo mundial". Pensamiento 4: Los modelos grandes abarcan miles de industrias Los modelos grandes se pueden dividir en modelos grandes generales, modelos grandes industriales, modelos grandes empresariales y modelos grandes personales. Shen Xiangyang señaló que los modelos grandes de propósito general son la base de la IA, y entrenar un modelo grande de propósito general requiere al menos 10,000 calorías. Los modelos grandes de la industria son la base para las aplicaciones de dominio y requieren capacitación a nivel de kilocalorías; El redescubrimiento del valor de los datos empresariales requiere cientos de calorías de formación. Estos modelos de gran tamaño tienen requisitos extremadamente altos en cuanto a potencia informática. "Lo más emocionante es el modelo personal a gran escala. Por ejemplo, Lenovo y Microsoft están promoviendo AIPC y Apple Intelligence de Apple se están desarrollando en la dirección de la inteligencia personal", dijo Shen Xiangyang. A finales de julio de este año, China ha registrado 197 modelos grandes, de los cuales el 30% son modelos grandes generales y el 70% son modelos grandes industriales. "Se puede ver que los modelos grandes en la industria representan la gran mayoría, y definitivamente habrá más y más en el futuro", dijo Shen Xiangyang. Pensamiento 5: agente de IA: desde la visión hasta la implementación En mayo de 2024, el fundador de Microsoft, Bill Gates, declaró públicamente que AI Agent no solo cambiará la forma en que todos interactúan con las computadoras, sino que también subvertirá la industria del software y provocará la mayor revolución informática desde escribir comandos hasta hacer clic en íconos. Shun Xiangyang estuvo de acuerdo con esta opinión. Él cree que en la era de la inteligencia artificial, la súper aplicación realmente sorprendente es AI Agent. En el proceso de AI Agent desde la visión hasta la implementación, es necesario centrarse siempre en las necesidades, comprender profundamente las capacidades del modelo y construir un flujo de trabajo con una profunda participación de la IA. "Si trabajas en una empresa hoy en día, todo el flujo de trabajo es muy complejo. Aunque ChatGPT es muy poderoso, está lejos de alcanzar el nivel de Agente. Solo logra un avance. Para avanzar verdaderamente, debe integrarse en el todo el flujo de trabajo.", dijo. Pensamiento 6: prestar atención a la gobernanza de la IA La gobernanza de la IA es muy importante. El tema de la Conferencia Mundial sobre Inteligencia Artificial (WAIC) de este año es la gobernanza de la IA. Varios países tienen diferentes puntos de vista sobre este asunto. El desarrollo de la IA ha tenido un fuerte impacto en las personas, las empresas, la supervisión gubernamental, el desarrollo social y otros aspectos, y ha desencadenado preocupaciones públicas sobre su gobernanza de la seguridad. "Creo que el siguiente punto importante en el desarrollo de la inteligencia artificial. Desde la perspectiva de varios países del mundo, es necesario construir inteligencia artificial soberana, y detrás de la inteligencia artificial soberana debe haber una nube soberana para apoyar el desarrollo de la inteligencia artificial soberana. inteligencia artificial ", expresó Shen Xiangyang. Pensamiento 7: Repensar la relación hombre-máquina "¿En qué medida el impacto generado por GPT es el impacto de la interacción entre humanos y computadoras y en qué medida el desarrollo de la inteligencia de las máquinas?" Shen Xiangyang cree que la relación entre humanos y máquinas debe repensarse. Señaló que la IA proporciona a los humanos un nuevo contexto para la simbiosis con la tecnología, y la nueva forma de interacción entre humanos y computadoras apunta a la integración y el progreso de "IA e IA". IA (Intelligent Augmentation) representa un camino de desarrollo de IA centrado en el ser humano. Se centra en el uso de la tecnología para mejorar las capacidades humanas en lugar de reemplazarlas, enfatizando la relación de colaboración entre los humanos y la IA. "El columnista del New York Times, John Markoff, mencionó que en el desarrollo de las computadoras durante las últimas décadas, el verdadero ganador ha sido la interacción entre humanos y computadoras. No importa cuál sea la tecnología, el objetivo final debería ser ayudar a los humanos a utilizar mejor las máquinas. " Shen Xiang Yang dijo: "En la era de la IA, el aspecto más esencial de la interacción entre humanos y computadoras es el diálogo, al igual que ChatGPT, ¿se convertirá ChatGPT más Microsoft en la mejor empresa en la era de la IA? decir." Pensamiento 8: La naturaleza de la inteligencia Hoy en día, el desarrollo de GPT está en pleno apogeo, pero de hecho, la comprensión de la inteligencia por parte de las personas aún es muy limitada. A diferencia de la física, todo, desde el vasto cielo estrellado hasta los diminutos cuantos, puede explicarse mediante una teoría unificada; muchas cosas en el aprendizaje profundo actual son inexplicables y no tienen solidez. "La esencia de la inteligencia es la batalla centenaria entre las redes neuronales y los sistemas de símbolos", dijo Shen Xiangyang: "Hoy en día, aunque el desarrollo de la inteligencia artificial aún se encuentra en una etapa relativamente temprana, ya existen muchas aplicaciones en la industria, que son dignos, estoy decidido a hacerlo y tengo confianza en el futuro”.