يحتوي هذا المستودع على جميع مجموعات البيانات والتعليمات البرمجية والمواد التكميلية لأداء مهمة إنشاء الاستبيانات في مجال إدارة الموارد البشرية (HRM) من خلال الاستفادة من LLMs. في الوقت الحالي، ركزنا على الاستطلاعات، التي تفتقر عادةً إلى الإجابات الصحيحة/الخاطئة أو المسجلة. على وجه التحديد، تعد استبيانات المسح مفيدة في جمع التعليقات والآراء المستمرة من الموظفين، وتمكين المنظمات من مراقبة وتعزيز الجوانب المختلفة مثل رضا الموظفين والتقييم المحتمل.
ونظرًا لعدم وجود مجموعات بيانات كافية، قمنا ببناء مجموعة جديدة من مسوحات الموارد البشرية. يمكن العثور على تفاصيل حول مجموعة البيانات في بطاقة البيانات. لقد اختبرنا نموذجين من نماذج GPT (GPT-3.5-Turbo وGPT-4-Turbo) بإعدادات مختلفة، من أجل التعرف على العوامل التي تساهم بشكل أكبر في تحسين جودة المسح. يمكن العثور على هذه التفاصيل في بطاقة النموذج. في عملنا، قمنا بتصميم إطار عمل جديد لتقييم المحتوى الذي تم إنشاؤه تلقائيًا، نظرًا لمحدودية المقاييس التقليدية مثل ROUGE الخام وBLEU. وبالتالي، فإن مقاييسنا قادرة على تقدير جودة الدراسات الاستقصائية من حيث المشاركة، والتباين المواضيعي الداخلي، والتدفق. مزيد من التفاصيل مذكورة في البطاقة النموذجية.
تعرض دفاتر الملاحظات إحصائيات حول مجموعة البيانات الجديدة واستخدام نموذج التعليمات البرمجية والنتائج التي تم الحصول عليها.
نوصي باستخدام Python 3.11.5 لتشغيل التعليمات البرمجية الخاصة بنا، نظرًا لعدم التوافق المحتمل مع الإصدارات الأحدث.
عملية التثبيت موضحة أدناه:
git clone https://github.com/llaraspata/HRMQuestionnaireGenerationUsingLLM.git
python -m venv your_venv_name
source <your_venv_name>/bin/activate # On Windows, use: <your_venv_name>Scriptsactivate
pip install -r requirements.txt
يتم تكوين الإعدادات التجريبية المتعددة في ملف JSON. لتشغيل كافة التكوينات استخدم الأمر التالي:
python -W ignore <path_to_repo_folder>/src/models/predict.py
بخلاف ذلك، لتشغيل تكوين محدد، استخدم الأمر التالي:
python -W ignore <path_to_repo_folder>/src/models/predict.py --experiment-id "<experiment_id>"
حذر
تأكد من أن لديك مفتاح وصول صالح (Azure) OpenAI، وإلا فسيتم حظر الاتصال بخدمات OpenAI. ثم قم بتعيينه كمتغير بيئة باسم AZURE_OPENAI_KEY
.
علاوة على ذلك، لاحظ أننا استخدمنا عملية نشر خاصة، لذلك لا يمكن الوصول إليها بواسطة مستخدمين خارجيين عن فريق البحث والتطوير في Talentia HCM. وبالتالي، نوصي باستبدال قيمة معلمة azure_endpoint
بقيمة صالحة في استدعاء واجهة برمجة التطبيقات (API).
ملحوظة
يسمح الخيار -W ignore
بعدم عرض التحذيرات المحتملة أثناء تنفيذ البرنامج النصي. لعرضها، فقط قم بإزالة هذا الخيار.
لتشغيل خطوة التقييم قم بتنفيذ الأمر التالي:
python -W ignore <path_to_repo_folder>/src/models/evaluate.py
لإجراء التحويل التلقائي للبيانات المعززة من نص غير منظم إلى JSON، قم بتشغيل الأمر التالي:
python -W ignore <path_to_repo_folder>/src/data/convert_qst_to_json.py
@inproceedings { laraspata2024SurveyGeneration4HCM ,
author = { Lucrezia Laraspata and Fabio Cardilli and Giovanna Castellano and Gennaro Vessio } ,
title = { Enhancing human capital management through GPT-driven questionnaire generation } ,
year = { 2024 } ,
booktitle = { Proceedings of the Eighth Workshop on Natural Language for Artificial Intelligence (NL4AI 2024) co-located with 23th International Conference of the Italian Association for Artificial Intelligence (AI*IA 2024) } ,
year = { 2024 }
}
├── LICENSE
├── Makefile <- Makefile with commands like `make data` or `make train`
├── README.md <- The top-level README for developers using this project.
├── data
│ ├── external <- Raw questionnaires derived from the augmentation process.
│ ├── interim <- Intermediate augmented data that has been transformed to JSON.
│ ├── processed <- The final, canonical data sets for modeling.
│ └── raw <- The data used as starting point from this project
│ (taken from Talentia Software HCM).
│
├── docs <- A default Sphinx project; see sphinx-doc.org for details
│
├── models <- Predictions for each run experiments. For each of the a log and a picke file are saved.
│
├── notebooks <- Jupyter notebooks used to illustrate class usage, dataset insights, and experimental results.
│
├── requirements.txt <- The requirements file for reproducing the analysis environment.
│
├── setup.py <- makes project pip installable (pip install -e .) so src can be imported
│
├── src <- Source code for use in this project.
│ ├── __init__.py <- Makes src a Python module
│ │
│ ├── data <- Scripts to download or generate data
│ │ ├── convert_qst_to_json.py
│ │ └── TFQuestionnairesDataset.py
│ │
│ ├── prompts <- Catalog of the employed prompts
│ │ ├── qst_to_json_prompts.py
│ │ ├── QstToJsonPromptGenerator.py
│ │ ├── QstToJsonScenarioGenerator.py
│ │ │
│ │ ├── prediction_prompts.py
│ │ ├── PredictionPromptGenerator.py
│ │ ├── PredictionScenarioGenerator.py
│ │ │
│ │ ├── topic_modeling_prompts.py
│ │ ├── TopicModelingPromptGenerator.py
│ │ └── TopicModelingScenarioGenerator.py
│ │
│ ├── models <- Scripts to run experiments and evaluations
│ │ ├── experiment_config.json
│ │ │
│ │ ├── predict.py
│ │ │
│ │ ├── QuestionnairesEvaluator.py
│ │ ├── ModelEvaluator.py
│ │ └── evaluate.py
│ │
│ └── visualization <- Scripts to create exploratory and results oriented visualizations
│ ├── experiment_pairs.json
│ │
│ ├── GlobalResultVisualizer.py
│ ├── PairResultVisualizer.py
│ └── visualize.py
│
└── tox.ini <- tox file with settings for running tox; see tox.readthedocs.io
يعتمد المشروع على قالب مشروع علوم البيانات Cookiecutter. #cookiecutterdatascience