이 저장소는 DOSA 데이터세트에 대한 실험을 실행하기 위한 코드를 호스팅합니다.
create_env.py
를 실행하여 dosa
conda 환경을 생성합니다.
conda activate dosa
실행하여 환경을 활성화하십시오.
.env 파일에서 아래 환경 변수를 설정하십시오.
OPENAI_API_KEY
HF_TOKEN
또한 모든 패키지가 올바르게 작동할 수 있도록 PYTHONPATH
변수를 내보내세요. PYTHONPATH
추가하려면 터미널에서 다음 명령을 작성하세요. export PYTHONPATH=$PYTHONPATH:
참고 Llama 2 모델에 대한 액세스를 신청했는지 확인하세요. 또한 HuggingFace를 사용하여 llama2 모델을 다운로드합니다. Lama 2 모델에 대한 액세스를 신청할 때 사용한 것과 동일한 이메일 ID를 사용하고 있는지 확인하세요. HF_TOKEN
생성한 다음 .env
파일에 저장합니다.
데이터세트나 코드를 사용하는 경우 다음 bibTEX를 사용하세요.
@inproceedings{seth-etal-2024-dosa-dataset,
title = "{DOSA}: A Dataset of Social Artifacts from Different {I}ndian Geographical Subcultures",
author = "Seth, Agrima and
Ahuja, Sanchit and
Bali, Kalika and
Sitaram, Sunayana",
editor = "Calzolari, Nicoletta and
Kan, Min-Yen and
Hoste, Veronique and
Lenci, Alessandro and
Sakti, Sakriani and
Xue, Nianwen",
booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)",
month = may,
year = "2024",
address = "Torino, Italia",
publisher = "ELRA and ICCL",
url = "https://aclanthology.org/2024.lrec-main.474",
pages = "5323--5337",
abstract = "Generative models are increasingly being used in various applications, such as text generation, commonsense reasoning, and question-answering. To be effective globally, these models must be aware of and account for local socio-cultural contexts, making it necessary to have benchmarks to evaluate the models for their cultural familiarity. Since the training data for LLMs is web-based and the Web is limited in its representation of information, it does not capture knowledge present within communities that are not on the Web. Thus, these models exacerbate the inequities, semantic misalignment, and stereotypes from the Web. There has been a growing call for community-centered participatory research methods in NLP. In this work, we respond to this call by using participatory research methods to introduce DOSA, the first community-generated Dataset of 615 Social Artifacts, by engaging with 260 participants from 19 different Indian geographic subcultures. We use a gamified framework that relies on collective sensemaking to collect the names and descriptions of these artifacts such that the descriptions semantically align with the shared sensibilities of the individuals from those cultures. Next, we benchmark four popular LLMs and find that they show significant variation across regional sub-cultures in their ability to infer the artifacts.",
}
이 프로젝트는 기여와 제안을 환영합니다. 대부분의 기여는 귀하가 귀하의 기여를 사용할 수 있는 권리를 갖고 있으며 실제로 그렇게 하고 있음을 선언하는 기여자 라이센스 계약(CLA)에 동의해야 합니다. 자세한 내용을 보려면 https://cla.opensource.microsoft.com을 방문하세요.
끌어오기 요청을 제출하면 CLA 봇이 자동으로 CLA 제공이 필요한지 여부를 결정하고 PR을 적절하게 장식합니다(예: 상태 확인, 댓글). 봇이 제공하는 지침을 따르기만 하면 됩니다. CLA를 사용하여 모든 저장소에서 이 작업을 한 번만 수행하면 됩니다.
이 프로젝트는 Microsoft 오픈 소스 행동 강령을 채택했습니다. 자세한 내용은 행동 강령 FAQ를 참조하거나 추가 질문이나 의견이 있는 경우 [email protected]으로 문의하세요.
이 프로젝트에는 프로젝트, 제품 또는 서비스에 대한 상표나 로고가 포함될 수 있습니다. Microsoft 상표 또는 로고의 승인된 사용에는 Microsoft의 상표 및 브랜드 지침이 적용되며 이를 따라야 합니다. 이 프로젝트의 수정된 버전에 Microsoft 상표 또는 로고를 사용하면 혼동을 일으키거나 Microsoft 후원을 암시해서는 안 됩니다. 제3자 상표 또는 로고의 사용에는 해당 제3자의 정책이 적용됩니다.
여기에서 데이터 라이선스를 참조하세요.
여기에서 Microsoft의 개인 정보 보호 정책에 대한 자세한 내용을 확인할 수 있습니다.