El programa de rastreo escrito con la ayuda de ChatGPT puede analizar las tendencias tecnológicas actuales basándose en el contenido de los blogs de tecnología de Internet actuales.
Funciones principales:
Defina el sitio web del blog de tecnología de destino del programa rastreador, determine las páginas que deben rastrearse y la información que debe extraerse. Esta información puede incluir título del artículo, autor, fecha de publicación, resumen, contenido, etc.
Utilice el marco OkHttp3 para iniciar una solicitud HTTP para obtener el código HTML de la página web. Para evitar que el sitio web lo bloquee, debe configurar los parámetros adecuados, como el agente de usuario y el tiempo de demora. Para una gran cantidad de solicitudes, puede considerar el uso de IP proxy y otras estrategias para evitar el bloqueo.
Utilice el marco Jsoup para analizar el código HTML y extraer la información requerida. Puede utilizar selectores para localizar los elementos necesarios y utilizar API para obtener los atributos y el contenido de texto del elemento. Cabe señalar que algunos sitios web pueden utilizar tecnología anti-rastreadores, como configurar códigos de verificación, generar páginas dinámicamente, etc., que deben manejarse según circunstancias específicas.
Utilice el marco Mybatis Plus para almacenar datos en la base de datos. Primero debe definir la estructura y las clases de entidad de la tabla de datos y luego usar la API proporcionada por el marco para agregar, eliminar, modificar y consultar datos. Para evitar el almacenamiento duplicado, puede considerar el uso de mecanismos como claves primarias o índices únicos para deduplicar datos.
Utilice tareas programadas para ejecutar programas de rastreo periódicamente para garantizar actualizaciones oportunas de los datos. Es necesario establecer la frecuencia y el tiempo de ejecución adecuados para evitar un acceso excesivamente frecuente al sitio web de destino, lo que provocaría anomalías en el sitio web.
El momento emocionante está aquí , deje que ChatGPT genere el código fuente. La información que brindamos a AI incluye: nombre del proyecto ai-crawler, versión Java 1.8 , dependencias: mybatis-plus-boot-starter, okhttp, hutool-all, jsoup.
Bueno, es bastante satisfactorio. Sé cómo crear dos clases de herramientas basadas en okhttp y jsoup.
A continuación, déle otra pista y dígale a AI el modelo de datos específico, que actualmente se llama tentativamente Blog, y deje que AI genere códigos específicos de adición, eliminación, modificación y consulta.
Echemos un vistazo a su actuación:
No está mal, la clase de entidad Blog generada usa la anotación @TableName de MybatisPlus que hereda de IService de MybatisPlus; La anotación @Service de Spring también se usa conscientemente.
¿Este código no es peor que el de un ingeniero junior de Java ?
Además del código lógico básico anterior, echemos un vistazo a las clases de configuración y los archivos de configuración.
¿La IA reemplazará a los programadores? Quizás en el futuro, pero probablemente no ahora. Creo que la IA es más bien una herramienta útil.