Ce système est développé en utilisant Python + Le programme d'exploration Selenium collecte les données de recrutement du site Web de recrutement direct BOSS , stocke les données de recrutement collectées dans la base de données MySQL , puis effectue un nettoyage des données sur les données de recrutement stockées dans la base de données, y compris la déduplication des données, l'unification des types de champs et du contenu, Supprimer données non pertinentes et d'autres opérations, puis analyser les données nettoyées, y compris le nombre de recrutements pour un certain type de poste, les diplômes universitaires et l'expérience professionnelle. Analyse du point de vue de l'expérience, du type d'entreprise, de la taille de l'entreprise, de la répartition des villes, etc. ; Analyser le niveau salarial d'un certain type de poste du point de vue des qualifications académiques, de l'expérience de travail, du type d'entreprise, de la taille de l'entreprise, etc. ; des mots de compétences à haute fréquence qui apparaissent dans un certain type de poste et les combinent. Les compétences à maîtriser ont été obtenues en analysant les résultats. Enfin, afin d'afficher intuitivement les résultats de l'analyse, un système d'analyse visuelle des données de recrutement a été conçu et mis en œuvre pour. afficher les résultats de l’analyse sous forme de graphiques visuels. Techniquement, le framework SpringBoot est utilisé pour créer un accès backend, et une API RESTful est utilisée pour fournir des données au frontend. L'interface frontend du système est construite à l'aide du framework Vue + Element-UI et les graphiques visuels sont générés à l'aide de v-charts. + bibliothèque de graphiques echarts .
Importez le programme d'exploration dans le répertoire bosszp-spider dans Pycharm , ouvrez le fichier spiderMain , recherchez la fonction principale du programme et modifiez le code spiderObj = spider('copywriting', city, 1) dans la fonction principale pour modifier la rédaction Remplacez-le par la publication à explorer, puis utilisez le terminal pour entrer dans le répertoire d'installation de Google Chrome et exécutez ./chrome.exe -remote-debugging-port=9222 , puis ouvrez le site Web de recrutement direct BOSS dans Google Chrome lancé et scannez le code QR pour vous connecter. Après avoir terminé les étapes ci-dessus, vous pouvez exécuter le programme d'exploration.
找到listen 80,然后在它下面添加或替换如下配置
listen 80;
server_name localhost;
sendfile on;
keepalive_timeout 65;
charset utf-8;
#access_log logs/host.access.log main;
location / {
add_header 'Access-Control-Allow-Origin' $http_origin;
add_header 'Access-Control-Allow-Credentials' 'true';
add_header 'Access-Control-Allow-Methods' 'GET, POST, OPTIONS';
add_header 'Access-Control-Allow-Headers' 'DNT,web-token,app-token,Authorization,Accept,Origin,Keep-Alive,User-Agent,X-Mx-ReqToken,X-Data-Type,X-Auth-Token,X-Requested-With,If-Modified-Since,Cache-Control,Content-Type,Range';
add_header 'Access-Control-Expose-Headers' 'Content-Length,Content-Range';
if ($request_method = 'OPTIONS') {
add_header 'Access-Control-Max-Age' 1728000;
add_header 'Content-Type' 'text/plain; charset=utf-8';
add_header 'Content-Length' 0;
return 204;
}
root /upload/;
index index.html index.htm; # 需要转发的url地址
}
location ^~/apm/ {
proxy_pass http://localhost:8890/;
}
location ^~/apj/ {
proxy_pass http://localhost:8890/admin/;
}
Utilisez IDEA pour importer tout le code d'arrière-plan dans le répertoire d'analyse . Une fois toutes les dépendances téléchargées, modifiez le contenu de configuration dans le fichier application.yml en fonction de votre propre situation. Une fois la modification terminée, utilisez Navicat pour créer une base de données nommée bosszp et. importez-le au même niveau que le fichier de configuration bosszp.sql , après avoir importé la table de la base de données, la collecte. Les données de recrutement sont importées dans la table des emplois de la base de données créée à l'aide de Navicat . Avant d'exécuter le code en arrière-plan, les données de la base de données doivent d'abord être dédupliquées et les données non pertinentes sont supprimées, puis les mots-clés qui apparaissent dans. le nom du travail sont utilisés. Classez chaque information de poste, et enfin unifiez le type ou le contenu des champs. Deux exemples de données traitées sont donnés ci-dessous : (Seules les informations de champ à traiter sont affichées).
adresse | Adresse gérée | transformationAdresse | taper | Type géré | dist |
---|---|---|---|---|---|
Pékin | District de Pékin-Shunyi | Pékin | Ingénieur exploitation et maintenance | Ingénieur des opérations | District de Shunyi |
Shenzhen | District de Shenzhen-Longgang | Shenzhen | Ingénieur exploitation et maintenance | Ingénieur des opérations | District de Longgang |
travailTag | handledWorkTag | salaire | Salaire géré | Salaire moyen | salaireMois |
---|---|---|---|---|---|
["Configuration du serveur", "Processus multiples", "Threads multiples", "Linux", "Bases de l'algorithme", "Structure des données", ""] | Configuration du serveur multi-processus multi-thread algorithme Linux structure de données de base | [9000, 11000] | 9-11K/mois | 10000 | 0 salaire |
["Python", "Java", "Go", "TypeScript", "Technologie distribuée", "Technologie de conteneur", "", ""] | Python Java Go TypeScript Technologie de conteneur de technologie distribuée | [15 000, 25 000] | 15-25K/mois·13 salaire | 20000 | 13 salaire |
entrepriseTags | handledCompanyTags | entreprisePersonnes | géréEntreprisePersonnes |
---|---|---|---|
aucun | [0, 20] | 0-20 personnes | |
["Examen médical régulier", "Assurance médicale complémentaire", "Collations et goûters", "Déplacements des salariés", "Allocation d'heures supplémentaires", "Stock options", "Allocation de repas", "Allocations de vacances", "Prime de fin d'année ", "Cinq assurances et or"] | Examen physique régulier, assurance médicale complémentaire, collations, thé de l'après-midi, allocation de déplacement et d'heures supplémentaires des employés, options d'achat d'actions, supplément repas, indemnités de vacances, prime de fin d'année, cinq assurances et un fonds | [0, 10000] | Plus de 10 000 personnes |
Une fois le traitement des données terminé, le travail de préparation des données en arrière-plan est terminé. Enfin, le programme principal du code d'arrière-plan est démarré. Si aucune erreur anormale ne se produit, l'opération en arrière-plan est réussie.
Tout d'abord, utilisez la commande npm pour installer globalement le gestionnaire de packages Yarn . Ensuite, utilisez WebStorm pour importer tout le code frontal dans le répertoire recrutement-data-analysis . Une fois l'importation terminée, utilisez la commande Yarn Install pour installer les modules requis. . Une fois l'installation du module terminée, exécutez la commande fil run build pour installer le projet. Une fois l'empaquetage terminé, un dossier dist sera généré dans le dossier de téléchargement créé ci-dessus. complétion, l'adresse d'accès locale de la réception sous Windows 11 est : http://localhost/