Este sistema é desenvolvido usando Python + O programa rastreador Selenium coleta dados de recrutamento do site de recrutamento direto do BOSS , armazena os dados de recrutamento coletados no banco de dados MySQL e, em seguida, realiza a limpeza de dados nos dados de recrutamento armazenados no banco de dados, incluindo desduplicação de dados, unificação de tipos de campo e conteúdo, Excluir dados irrelevantes e outras operações e, em seguida, analisar os dados limpos, incluindo o número de recrutamentos para um determinado tipo de cargo, qualificações acadêmicas e experiência profissional. Análise sob as perspectivas de experiência, tipo de empresa, tamanho da empresa, distribuição por cidade, etc.; Analisar o nível salarial de um determinado tipo de cargo sob as perspectivas de habilitações académicas, experiência profissional, tipo de empresa, dimensão da empresa, etc.; palavras de habilidade de alta frequência que aparecem em um determinado tipo de posição e as combinam As habilidades a serem dominadas foram obtidas através da análise dos resultados Por fim, para exibir intuitivamente os resultados da análise, um sistema de análise visual de dados de recrutamento foi projetado e implementado para. exibir os resultados da análise na forma de gráficos visuais. Tecnicamente, a estrutura SpringBoot é usada para construir acesso de back-end e uma API RESTful é usada para fornecer dados ao front-end. A interface de front-end do sistema é construída usando a estrutura Vue + Element-UI e os gráficos visuais são gerados usando v-charts. + biblioteca de gráficos echarts .
Importe o programa rastreador no diretório bosszp-spider para Pycharm , abra o arquivo spiderMain , encontre a função principal no programa e modifique o código spiderObj = spider('copywriting', city, 1) na função principal para alterar a redação Mude para a postagem a ser rastreada, use o terminal para entrar no diretório de instalação do Google Chrome e execute ./chrome.exe -remote-debugging-port=9222 comando, em seguida, abra o site de recrutamento direto do BOSS no Google Chrome iniciado e escaneie o código QR para fazer login.
找到listen 80,然后在它下面添加或替换如下配置
listen 80;
server_name localhost;
sendfile on;
keepalive_timeout 65;
charset utf-8;
#access_log logs/host.access.log main;
location / {
add_header 'Access-Control-Allow-Origin' $http_origin;
add_header 'Access-Control-Allow-Credentials' 'true';
add_header 'Access-Control-Allow-Methods' 'GET, POST, OPTIONS';
add_header 'Access-Control-Allow-Headers' 'DNT,web-token,app-token,Authorization,Accept,Origin,Keep-Alive,User-Agent,X-Mx-ReqToken,X-Data-Type,X-Auth-Token,X-Requested-With,If-Modified-Since,Cache-Control,Content-Type,Range';
add_header 'Access-Control-Expose-Headers' 'Content-Length,Content-Range';
if ($request_method = 'OPTIONS') {
add_header 'Access-Control-Max-Age' 1728000;
add_header 'Content-Type' 'text/plain; charset=utf-8';
add_header 'Content-Length' 0;
return 204;
}
root /upload/;
index index.html index.htm; # 需要转发的url地址
}
location ^~/apm/ {
proxy_pass http://localhost:8890/;
}
location ^~/apj/ {
proxy_pass http://localhost:8890/admin/;
}
Use IDEA para importar todo o código de segundo plano no diretório de análise . Após o download de todas as dependências, modifique o conteúdo da configuração no arquivo application.yml de acordo com sua situação. Após a conclusão da modificação, use Navicat para criar um banco de dados chamado bosszp e. importe-o para o mesmo nível do arquivo de configuração bosszp.sql , após importar a tabela do banco de dados, a coleta. Os dados de recrutamento são importados para a tabela de empregos do banco de dados criado usando Navicat . Antes de executar o código de segundo plano, os dados no banco de dados precisam ser limpos primeiro, os dados são desduplicados e os dados irrelevantes são excluídos e, em seguida, as palavras-chave que aparecem em. o nome do trabalho é usado. Classifique as informações de cada posição e, finalmente, unifique o tipo ou conteúdo dos campos. Dois dados de exemplo processados são fornecidos abaixo: (Apenas as informações do campo a serem processadas são exibidas).
endereço | endereço manipulado | transformAddress | tipo | tipo manipulado | distância |
---|---|---|---|---|---|
Pequim | Distrito de Pequim-Shunyi | Pequim | Engenheiro de operação e manutenção | Engenheiro de operações | Distrito de Shunyi |
Shenzhen | Distrito de Shenzhen-Longgang | Shenzhen | Engenheiro de operação e manutenção | Engenheiro de operações | Distrito de Longgang |
trabalhoTag | manipuladoWorkTag | salário | gerenciadoSalário | salário médio | salárioMês |
---|---|---|---|---|---|
["Configuração do servidor", "Múltiplos processos", "Múltiplos threads", "Linux", "Noções básicas de algoritmo", "Estrutura de dados", ""] | Estrutura de dados básica do algoritmo Linux multiprocesso e multithread de configuração do servidor | [9.000, 11.000] | 9-11 mil/mês | 10.000 | 0 salário |
["Python", "Java", "Go", "TypeScript", "Tecnologia Distribuída", "Tecnologia de Contêiner", "", ""] | Tecnologia de contêiner de tecnologia distribuída Python Java Go TypeScript | [15.000, 25.000] | 15-25K/mês·13 salário | 20.000 | 13 salário |
empresaTags | tratadaEmpresaTags | empresaPessoas | gerenciadoEmpresaPessoas |
---|---|---|---|
nenhum | [0, 20] | 0-20 pessoas | |
["Exame físico periódico", "Seguro médico complementar", "Lanches e chá da tarde", "Viagens de funcionários", "Auxílio horas extras", "Opções de ações", "Auxílio refeição", "Benefícios de férias", "Bônus de final de ano ", "Cinco seguros e ouro"] | Exame físico regular, seguro médico complementar, lanche, chá da tarde, subsídio de viagem e horas extras, stock options, complemento refeição, auxílio-férias, bônus de final de ano, cinco seguros e um fundo | [0, 10.000] | Mais de 10.000 pessoas |
Após a conclusão do processamento dos dados, o trabalho de preparação dos dados em segundo plano é concluído. Finalmente, o programa principal do código em segundo plano é iniciado. Se nenhum erro anormal ocorrer, a operação em segundo plano será bem-sucedida.
Primeiro, use o comando npm para instalar globalmente o gerenciador de pacotes do fio . Em seguida, use o WebStorm para importar todo o código front-end no diretório recrutamento-data-análise . Após a conclusão da importação, use o comando de instalação do fio para instalar os módulos necessários. Após a conclusão da instalação do módulo, execute o comando yarn run build para instalar o projeto. Após a conclusão do empacotamento, uma pasta dist será gerada. conclusão, o endereço de acesso local da recepção no Windows 11 é: http://localhost/