O programa rastreador escrito com a ajuda do ChatGPT pode analisar as tendências tecnológicas atuais com base no conteúdo dos blogs atuais de tecnologia da Internet.
Principais funções:
Defina o site do blog de tecnologia de destino do programa rastreador, determine as páginas que precisam ser rastreadas e as informações que precisam ser extraídas. Essas informações podem incluir título do artigo, autor, data de publicação, resumo, conteúdo, etc.
Use a estrutura OkHttp3 para iniciar uma solicitação HTTP para obter o código HTML da página da web. Para evitar ser bloqueado pelo site, você precisa definir parâmetros apropriados, como User-Agent e tempo de atraso. Para um grande número de solicitações, você pode considerar o uso de IP proxy e outras estratégias para evitar o bloqueio.
Use a estrutura Jsoup para analisar o código HTML e extrair as informações necessárias. Você pode usar seletores para localizar os elementos necessários e usar APIs para obter os atributos e o conteúdo de texto do elemento. Deve-se notar que alguns sites podem utilizar tecnologia anti-crawler, como configuração de códigos de verificação, geração dinâmica de páginas, etc., que precisam ser tratadas de acordo com circunstâncias específicas.
Use a estrutura Mybatis Plus para armazenar dados no banco de dados. Você precisa primeiro definir a estrutura e as classes de entidade da tabela de dados e, em seguida, usar a API fornecida pela estrutura para adicionar, excluir, modificar e consultar dados. Para evitar armazenamento duplicado, você pode considerar o uso de mecanismos como chaves primárias ou índices exclusivos para desduplicar dados.
Use tarefas agendadas para executar programas rastreadores periodicamente para garantir atualizações oportunas de dados. A frequência e o tempo de execução apropriados precisam ser definidos para evitar acesso excessivamente frequente ao site de destino, causando anormalidades no site.
O momento emocionante está aqui , deixe o ChatGPT gerar o código-fonte. As informações que fornecemos à IA incluem: nome do projeto ai-crawler, Java versão 1.8 , dependências: mybatis-plus-boot-starter, okhttp, hutool-all, jsoup.
Bem, é bastante satisfatório. Eu sei como criar duas classes de ferramentas baseadas em okhttp e jsoup.
Em seguida, dê outra dica e informe à IA o modelo de dados específico, que atualmente é provisoriamente chamado de Blog, e deixe a IA gerar códigos específicos de adição, exclusão, modificação e consulta.
Vamos dar uma olhada em seu desempenho:
Nada mal, a classe de entidade Blog gerada usa a anotação @TableName do MybatisPlus; A anotação @Service do Spring também é usada conscientemente.
Este código não é pior do que um engenheiro Java júnior ?
Além do código lógico básico acima, vamos dar uma olhada nas classes de configuração e nos arquivos de configuração.
A IA substituirá os programadores? Talvez no futuro, mas provavelmente não agora. Acho que a IA é mais uma ferramenta útil.