Le programme d'exploration écrit avec l'aide de ChatGPT peut analyser les tendances technologiques actuelles en fonction du contenu des blogs technologiques Internet actuels.
Fonctions principales :
Définissez le site Web du blog technologique cible du programme d'exploration, déterminez les pages qui doivent être explorées et les informations qui doivent être extraites. Ces informations peuvent inclure le titre de l'article, l'auteur, la date de publication, le résumé, le contenu, etc.
Utilisez le framework OkHttp3 pour lancer une requête HTTP afin d'obtenir le code HTML de la page Web. Afin d'éviter d'être bloqué par le site Web, vous devez définir les paramètres appropriés tels que l'agent utilisateur et le délai. Pour un grand nombre de demandes, vous pouvez envisager d’utiliser une adresse IP proxy et d’autres stratégies pour éviter d’être bloqué.
Utilisez le framework Jsoup pour analyser le code HTML et extraire les informations requises. Vous pouvez utiliser des sélecteurs pour localiser les éléments requis et utiliser des API pour obtenir les attributs et le contenu textuel de l'élément. Il convient de noter que certains sites Web peuvent utiliser une technologie anti-crawler, telle que la définition de codes de vérification, la génération dynamique de pages, etc., qui doivent être gérées en fonction de circonstances spécifiques.
Utilisez le framework Mybatis Plus pour stocker les données dans la base de données. Vous devez d'abord définir la structure et les classes d'entités de la table de données, puis utiliser l'API fournie par le framework pour ajouter, supprimer, modifier et interroger des données. Afin d'éviter le stockage en double, vous pouvez envisager d'utiliser des mécanismes tels que des clés primaires ou des index uniques pour dédupliquer les données.
Utilisez des tâches planifiées pour exécuter périodiquement des programmes d'exploration afin de garantir des mises à jour opportunes des données. La fréquence et l'heure d'exécution appropriées doivent être définies pour éviter un accès trop fréquent au site Web cible, provoquant des anomalies sur le site.
Le moment passionnant est là , laissez ChatGPT générer le code source. Les informations que nous donnons à AI incluent : le nom du projet ai-crawler, Java version 1.8, les dépendances : mybatis-plus-boot-starter, okhttp, hutool-all, jsoup Quel type de code l'IA va-t-elle générer ?
Eh bien, c'est tout à fait satisfaisant. Je sais créer deux classes d'outils basées sur okhttp et jsoup.
Ensuite, donnez-lui un autre indice et indiquez à l'IA le modèle de données spécifique, qui est actuellement provisoirement appelé Blog, et laissez l'IA générer des codes d'ajout, de suppression, de modification et de requête spécifiques.
Jetons un coup d'œil à sa performance :
Pas mal, la classe d'entité Blog générée utilise l'annotation @TableName de MybatisPlus hérite de IService de MybatisPlus ; L'annotation @Service de Spring est également utilisée consciemment.
Ce code n'est-il pas pire qu'un ingénieur Java junior ?
En plus du code logique de base ci-dessus, examinons les classes de configuration et les fichiers de configuration.
L'IA remplacera-t-elle les programmeurs ? Peut-être dans le futur, mais probablement pas maintenant. Je pense que l’IA ressemble davantage à un outil pratique.