Este sistema está desarrollado usando Python + El programa de rastreo Selenium recopila datos de reclutamiento del sitio web de reclutamiento directo de BOSS , almacena los datos de reclutamiento recopilados en la base de datos MySQL y luego realiza la limpieza de datos en los datos de reclutamiento almacenados en la base de datos, incluida la deduplicación de datos, unificación de tipos de campos y contenido, Eliminar datos irrelevantes y otras operaciones, y luego analizar los datos limpios, incluido el número de contrataciones para un determinado tipo de puesto, calificaciones académicas y experiencia laboral. Análisis desde la perspectiva de la experiencia, tipo de empresa, tamaño de la empresa, distribución de la ciudad, etc.; Analizar el nivel salarial de un determinado tipo de puesto desde la perspectiva de las calificaciones académicas, la experiencia laboral, el tipo de empresa, el tamaño de la empresa, etc.; palabras de habilidad de alta frecuencia que aparecen en un determinado tipo de posición y las combinan Las habilidades a dominar se obtuvieron analizando los resultados Finalmente, para mostrar intuitivamente los resultados del análisis, se diseñó e implementó un sistema de análisis visual de datos de reclutamiento. mostrar los resultados del análisis en forma de gráficos visuales. Técnicamente, el marco SpringBoot se usa para crear acceso al backend y se usa una API RESTful para proporcionar datos al frontend. La interfaz del frontend del sistema se construye usando el marco Vue + Element-UI y los gráficos visuales se generan usando v-charts. + biblioteca de gráficos echarts .
Importe el programa rastreador en el directorio bosszp-spider a Pycharm , abra el archivo spiderMain , busque la función principal en el programa y modifique el código spiderObj = spider('copywriting', city, 1) en la función principal para cambiar la redacción. Cámbielo a la publicación que desea rastrear, luego use la terminal para ingresar al directorio de instalación de Google Chrome y ejecute ./chrome.exe -remote-debugging-port=9222 , luego abra el sitio web de reclutamiento directo de BOSS en Google Chrome iniciado y escanee el código QR para iniciar sesión. Después de completar los pasos anteriores, puede ejecutar el programa de rastreo.
找到listen 80,然后在它下面添加或替换如下配置
listen 80;
server_name localhost;
sendfile on;
keepalive_timeout 65;
charset utf-8;
#access_log logs/host.access.log main;
location / {
add_header 'Access-Control-Allow-Origin' $http_origin;
add_header 'Access-Control-Allow-Credentials' 'true';
add_header 'Access-Control-Allow-Methods' 'GET, POST, OPTIONS';
add_header 'Access-Control-Allow-Headers' 'DNT,web-token,app-token,Authorization,Accept,Origin,Keep-Alive,User-Agent,X-Mx-ReqToken,X-Data-Type,X-Auth-Token,X-Requested-With,If-Modified-Since,Cache-Control,Content-Type,Range';
add_header 'Access-Control-Expose-Headers' 'Content-Length,Content-Range';
if ($request_method = 'OPTIONS') {
add_header 'Access-Control-Max-Age' 1728000;
add_header 'Content-Type' 'text/plain; charset=utf-8';
add_header 'Content-Length' 0;
return 204;
}
root /upload/;
index index.html index.htm; # 需要转发的url地址
}
location ^~/apm/ {
proxy_pass http://localhost:8890/;
}
location ^~/apj/ {
proxy_pass http://localhost:8890/admin/;
}
Utilice IDEA para importar todo el código de fondo en el directorio de análisis . Una vez descargadas todas las dependencias, modifique el contenido de la configuración en el archivo application.yml de acuerdo con su propia situación. Una vez completada la modificación, utilice Navicat para crear una base de datos llamada bosszp . impórtelo al mismo nivel que el archivo de configuración bosszp.sql , después de importar la tabla de la base de datos, la recopilada. Los datos de reclutamiento se importan a la tabla de trabajos de la base de datos creada usando Navicat . Antes de ejecutar el código en segundo plano, los datos en la base de datos deben limpiarse primero, los datos se eliminan y los datos irrelevantes, y luego las palabras clave que aparecen en. Se utilizan el nombre del trabajo. Clasifica la información de cada puesto y finalmente unifica el tipo o contenido de los campos. A continuación se muestran dos datos de ejemplo procesados: (Solo se muestra la información del campo a procesar).
DIRECCIÓN | dirección manejada | transformarDirección | tipo | tipo manejado | dist |
---|---|---|---|---|---|
Pekín | Distrito de Beijing-Shunyi | Pekín | Ingeniero de operacion y mantenimiento | Ingeniero de operaciones | Distrito de Shunyi |
Shénzhen | Distrito de Shenzhen-Longgang | Shénzhen | Ingeniero de operacion y mantenimiento | Ingeniero de operaciones | Distrito de Longgang |
etiqueta de trabajo | etiqueta de trabajo manejada | salario | manejadoSalario | salario promedio | salariomes |
---|---|---|---|---|---|
["Configuración del servidor", "Múltiples procesos", "Múltiples subprocesos", "Linux", "Conceptos básicos de algoritmos", "Estructura de datos", ""] | Configuración del servidor estructura de datos básica del algoritmo Linux multiproceso multiproceso | [9000, 11000] | 9-11K/mes | 10000 | 0 salario |
["Python", "Java", "Go", "TypeScript", "Tecnología distribuida", "Tecnología de contenedores", "", ""] | Python Java Go TypeScript tecnología distribuida tecnología de contenedores | [15000, 25000] | 15-25K/mes·13 salario | 20000 | 13 salario |
empresaEtiquetas | manejadoEtiquetas de empresa | empresaPersonas | manejadoEmpresaPersonas |
---|---|---|---|
ninguno | [0, 20] | 0-20 personas | |
["Examen físico periódico", "Seguro médico complementario", "Refrigerios y té de la tarde", "Viajes de empleados", "Subsidio por horas extras", "Opciones sobre acciones", "Subsidio para comidas", "Beneficios de vacaciones", "Bono de fin de año". ", "Cinco seguros y oro"] | Examen físico periódico, seguro médico complementario, refrigerios, té de la tarde, subsidio para viajes y horas extras de los empleados, opciones sobre acciones, complemento de alimentación, beneficios de vacaciones, bonificación de fin de año, cinco seguros y un fondo | [0, 10000] | Más de 10.000 personas |
Una vez completado el procesamiento de datos, se completa el trabajo de preparación de datos en segundo plano. Finalmente, se inicia el programa principal del código en segundo plano. Si no se producen errores anormales, la operación en segundo plano es exitosa.
Primero, use el comando npm para instalar globalmente el administrador de paquetes de hilo . Luego use WebStorm para importar todo el código de front-end en el directorio de análisis de datos de reclutamiento . Una vez completada la importación, use el comando de instalación de hilo para instalar los módulos necesarios. Una vez completada la instalación del módulo, ejecute el comando Yarn Run Build para instalar el proyecto. Una vez completado el empaquetado, se generará una carpeta dist . Coloque todos los archivos de esta carpeta en la carpeta de carga creada anteriormente. Finalizado, la dirección de acceso local de la recepción en Windows 11 es: http://localhost/