このリポジトリには、LLM を利用して人事管理 (HRM) ドメインでアンケート生成タスクを実行するためのすべてのデータセット、コード、補足資料が含まれています。現時点では、一般的に正解/不正解やスコア付きの回答が存在しないアンケートに焦点を当てています。具体的には、調査アンケートは従業員からの継続的なフィードバックや意見を収集するのに役立ち、組織が従業員の満足度や潜在的な評価などのさまざまな側面を監視および強化できるようになります。
適切なデータセットが不足しているため、私たちは人事調査の新しいコレクションを構築しました。データセットの詳細については、データ カードを参照してください。より高い調査品質に最も貢献する要因を把握するために、異なる設定で 2 つの GPT モデル (GPT-3.5-Turbo と GPT-4-Turbo) をテストしました。このような詳細については、モデル カードを参照してください。私たちの作業では、生の ROUGE や BLEU などの従来の指標の制限のため、生成されたコンテンツを自動的に評価する新しいフレームワークを設計しました。したがって、私たちの指標は、エンゲージメント、内部テーマの変動性、およびフローの観点から調査の品質を推定することができます。詳細については、モデル カードで報告されています。
ノートブックには、新しいデータセット、コード サンプルの使用状況、および取得された結果に関する統計が表示されます。
新しいバージョンとの互換性がない可能性があるため、コードを実行するには Python 3.11.5 を使用することをお勧めします。
インストールプロセスを以下に説明します。
git clone https://github.com/llaraspata/HRMQuestionnaireGenerationUsingLLM.git
python -m venv your_venv_name
source <your_venv_name>/bin/activate # On Windows, use: <your_venv_name>Scriptsactivate
pip install -r requirements.txt
いくつかの実験的な設定は JSON ファイルで構成されます。すべての構成を実行するには、次のコマンドを使用します。
python -W ignore <path_to_repo_folder>/src/models/predict.py
それ以外の場合、特定の構成を実行するには、次のコマンドを使用します。
python -W ignore <path_to_repo_folder>/src/models/predict.py --experiment-id "<experiment_id>"
注意
有効な (Azure) OpenAI アクセス キーを持っていることを確認してください。そうでない場合、OpenAI サービスの呼び出しは禁止されます。次に、それをAZURE_OPENAI_KEY
という名前の環境変数として設定します。
さらに、プライベート展開を使用したため、Talentia HCM R&D チームの外部のユーザーはアクセスできないことに注意してください。したがって、API 呼び出しでazure_endpoint
パラメーター値を有効な値に置き換えることをお勧めします。
注記
オプション-W ignore
と、スクリプトの実行中に潜在的な警告を表示しないことができます。それらを表示するには、そのようなオプションを削除するだけです。
評価ステップを実行するには、次のコマンドを実行します。
python -W ignore <path_to_repo_folder>/src/models/evaluate.py
拡張データの非構造化テキストから JSON への自動変換を実行するには、次のコマンドを実行します。
python -W ignore <path_to_repo_folder>/src/data/convert_qst_to_json.py
@inproceedings { laraspata2024SurveyGeneration4HCM ,
author = { Lucrezia Laraspata and Fabio Cardilli and Giovanna Castellano and Gennaro Vessio } ,
title = { Enhancing human capital management through GPT-driven questionnaire generation } ,
year = { 2024 } ,
booktitle = { Proceedings of the Eighth Workshop on Natural Language for Artificial Intelligence (NL4AI 2024) co-located with 23th International Conference of the Italian Association for Artificial Intelligence (AI*IA 2024) } ,
year = { 2024 }
}
├── LICENSE
├── Makefile <- Makefile with commands like `make data` or `make train`
├── README.md <- The top-level README for developers using this project.
├── data
│ ├── external <- Raw questionnaires derived from the augmentation process.
│ ├── interim <- Intermediate augmented data that has been transformed to JSON.
│ ├── processed <- The final, canonical data sets for modeling.
│ └── raw <- The data used as starting point from this project
│ (taken from Talentia Software HCM).
│
├── docs <- A default Sphinx project; see sphinx-doc.org for details
│
├── models <- Predictions for each run experiments. For each of the a log and a picke file are saved.
│
├── notebooks <- Jupyter notebooks used to illustrate class usage, dataset insights, and experimental results.
│
├── requirements.txt <- The requirements file for reproducing the analysis environment.
│
├── setup.py <- makes project pip installable (pip install -e .) so src can be imported
│
├── src <- Source code for use in this project.
│ ├── __init__.py <- Makes src a Python module
│ │
│ ├── data <- Scripts to download or generate data
│ │ ├── convert_qst_to_json.py
│ │ └── TFQuestionnairesDataset.py
│ │
│ ├── prompts <- Catalog of the employed prompts
│ │ ├── qst_to_json_prompts.py
│ │ ├── QstToJsonPromptGenerator.py
│ │ ├── QstToJsonScenarioGenerator.py
│ │ │
│ │ ├── prediction_prompts.py
│ │ ├── PredictionPromptGenerator.py
│ │ ├── PredictionScenarioGenerator.py
│ │ │
│ │ ├── topic_modeling_prompts.py
│ │ ├── TopicModelingPromptGenerator.py
│ │ └── TopicModelingScenarioGenerator.py
│ │
│ ├── models <- Scripts to run experiments and evaluations
│ │ ├── experiment_config.json
│ │ │
│ │ ├── predict.py
│ │ │
│ │ ├── QuestionnairesEvaluator.py
│ │ ├── ModelEvaluator.py
│ │ └── evaluate.py
│ │
│ └── visualization <- Scripts to create exploratory and results oriented visualizations
│ ├── experiment_pairs.json
│ │
│ ├── GlobalResultVisualizer.py
│ ├── PairResultVisualizer.py
│ └── visualize.py
│
└── tox.ini <- tox file with settings for running tox; see tox.readthedocs.io
cookiecutter データ サイエンス プロジェクト テンプレートに基づくプロジェクト。 #クッキーカッターデータサイエンス