พื้นที่เก็บข้อมูลนี้ประกอบด้วยชุดข้อมูล รหัส และเอกสารเสริมทั้งหมดเพื่อดำเนินงานการสร้างแบบสอบถามในโดเมนการจัดการทรัพยากรมนุษย์ (HRM) โดยใช้ประโยชน์จาก LLM ในขณะนี้ เรามุ่งเน้นไปที่การสำรวจ ซึ่งโดยทั่วไปจะขาดคำตอบที่ถูก/ผิด หรือได้คะแนน โดยเฉพาะอย่างยิ่ง แบบสอบถามแบบสำรวจเป็นเครื่องมือในการรวบรวมผลตอบรับและความคิดเห็นอย่างต่อเนื่องจากพนักงาน ช่วยให้องค์กรสามารถตรวจสอบและปรับปรุงด้านต่างๆ เช่น ความพึงพอใจของพนักงานและการประเมินศักยภาพ
เนื่องจากขาดชุดข้อมูลที่เพียงพอ เราจึงสร้างคอลเลกชันใหม่ของการสำรวจทรัพยากรบุคคล รายละเอียดเกี่ยวกับชุดข้อมูลสามารถพบได้ในการ์ดข้อมูล เราทดสอบรุ่น GPT สองรุ่น (GPT-3.5-Turbo และ GPT-4-Turbo) ด้วยการตั้งค่าที่แตกต่างกัน เพื่อหาปัจจัยที่มีส่วนทำให้คุณภาพการสำรวจสูงขึ้นมากที่สุด รายละเอียดดังกล่าวสามารถพบได้ในการ์ดโมเดล ในงานของเรา เราได้ออกแบบกรอบงานใหม่เพื่อประเมินเนื้อหาที่สร้างขึ้นโดยอัตโนมัติ เนื่องจากข้อจำกัดของตัวชี้วัดแบบดั้งเดิม เช่น Raw ROUGE และ BLEU ดังนั้น ตัวชี้วัดของเราจึงสามารถประมาณคุณภาพของแบบสำรวจในแง่ของการมีส่วนร่วม ความแปรปรวนเฉพาะเรื่องภายใน และการไหล รายละเอียดเพิ่มเติมรายงานอยู่ในการ์ดโมเดล
สมุดบันทึกจะแสดงสถิติเกี่ยวกับชุดข้อมูลใหม่ การใช้ตัวอย่างโค้ด และผลลัพธ์ที่ได้รับ
เราขอแนะนำให้ใช้ Python 3.11.5 เพื่อรันโค้ดของเรา เนื่องจากอาจเข้ากันไม่ได้กับเวอร์ชันที่ใหม่กว่า
กระบวนการติดตั้งอธิบายไว้ด้านล่าง:
git clone https://github.com/llaraspata/HRMQuestionnaireGenerationUsingLLM.git
python -m venv your_venv_name
source <your_venv_name>/bin/activate # On Windows, use: <your_venv_name>Scriptsactivate
pip install -r requirements.txt
การตั้งค่าการทดลองหลายอย่างได้รับการกำหนดค่าในไฟล์ JSON หากต้องการรันการกำหนดค่าทั้งหมดให้ใช้คำสั่งต่อไปนี้:
python -W ignore <path_to_repo_folder>/src/models/predict.py
มิฉะนั้น หากต้องการรันการกำหนดค่าเฉพาะให้ใช้คำสั่งต่อไปนี้:
python -W ignore <path_to_repo_folder>/src/models/predict.py --experiment-id "<experiment_id>"
คำเตือน
ตรวจสอบให้แน่ใจว่าคุณมีรหัสการเข้าถึง OpenAI ที่ถูกต้อง (Azure) มิฉะนั้นการเรียกใช้บริการ OpenAI จะไม่ได้รับอนุญาต จากนั้นตั้งค่าเป็นตัวแปรสภาพแวดล้อมชื่อ AZURE_OPENAI_KEY
นอกจากนี้ โปรดทราบว่าเราใช้การปรับใช้แบบส่วนตัว ดังนั้นผู้ใช้ภายนอกทีม R&D Talentia HCM จึงไม่สามารถเข้าถึงได้ ดังนั้น เราขอแนะนำให้ทดแทนค่าพารามิเตอร์ azure_endpoint
ด้วยค่าที่ถูกต้องในการเรียก API
บันทึก
ตัวเลือก -W ignore
อนุญาตให้ไม่แสดงคำเตือนที่อาจเกิดขึ้นระหว่างการเรียกใช้สคริปต์ หากต้องการแสดง เพียงลบตัวเลือกดังกล่าวออก
ในการรันขั้นตอนการประเมินให้รันคำสั่งต่อไปนี้:
python -W ignore <path_to_repo_folder>/src/models/evaluate.py
หากต้องการดำเนินการแปลงข้อมูล aumented จากข้อความที่ไม่มีโครงสร้างไปเป็น JSON โดยอัตโนมัติ ให้รันคำสั่งต่อไปนี้:
python -W ignore <path_to_repo_folder>/src/data/convert_qst_to_json.py
@inproceedings { laraspata2024SurveyGeneration4HCM ,
author = { Lucrezia Laraspata and Fabio Cardilli and Giovanna Castellano and Gennaro Vessio } ,
title = { Enhancing human capital management through GPT-driven questionnaire generation } ,
year = { 2024 } ,
booktitle = { Proceedings of the Eighth Workshop on Natural Language for Artificial Intelligence (NL4AI 2024) co-located with 23th International Conference of the Italian Association for Artificial Intelligence (AI*IA 2024) } ,
year = { 2024 }
}
├── LICENSE
├── Makefile <- Makefile with commands like `make data` or `make train`
├── README.md <- The top-level README for developers using this project.
├── data
│ ├── external <- Raw questionnaires derived from the augmentation process.
│ ├── interim <- Intermediate augmented data that has been transformed to JSON.
│ ├── processed <- The final, canonical data sets for modeling.
│ └── raw <- The data used as starting point from this project
│ (taken from Talentia Software HCM).
│
├── docs <- A default Sphinx project; see sphinx-doc.org for details
│
├── models <- Predictions for each run experiments. For each of the a log and a picke file are saved.
│
├── notebooks <- Jupyter notebooks used to illustrate class usage, dataset insights, and experimental results.
│
├── requirements.txt <- The requirements file for reproducing the analysis environment.
│
├── setup.py <- makes project pip installable (pip install -e .) so src can be imported
│
├── src <- Source code for use in this project.
│ ├── __init__.py <- Makes src a Python module
│ │
│ ├── data <- Scripts to download or generate data
│ │ ├── convert_qst_to_json.py
│ │ └── TFQuestionnairesDataset.py
│ │
│ ├── prompts <- Catalog of the employed prompts
│ │ ├── qst_to_json_prompts.py
│ │ ├── QstToJsonPromptGenerator.py
│ │ ├── QstToJsonScenarioGenerator.py
│ │ │
│ │ ├── prediction_prompts.py
│ │ ├── PredictionPromptGenerator.py
│ │ ├── PredictionScenarioGenerator.py
│ │ │
│ │ ├── topic_modeling_prompts.py
│ │ ├── TopicModelingPromptGenerator.py
│ │ └── TopicModelingScenarioGenerator.py
│ │
│ ├── models <- Scripts to run experiments and evaluations
│ │ ├── experiment_config.json
│ │ │
│ │ ├── predict.py
│ │ │
│ │ ├── QuestionnairesEvaluator.py
│ │ ├── ModelEvaluator.py
│ │ └── evaluate.py
│ │
│ └── visualization <- Scripts to create exploratory and results oriented visualizations
│ ├── experiment_pairs.json
│ │
│ ├── GlobalResultVisualizer.py
│ ├── PairResultVisualizer.py
│ └── visualize.py
│
└── tox.ini <- tox file with settings for running tox; see tox.readthedocs.io
โปรเจ็กต์ที่อิงตามเทมเพลตโปรเจ็กต์วิทยาศาสตร์ข้อมูลของเครื่องตัดคุกกี้ #cookiecutterdatascience