Este repositorio aloja el código para ejecutar experimentos en el conjunto de datos DOSA .
Cree el entorno dosa
conda ejecutando create_env.py
Active el entorno ejecutando conda activate dosa
Establezca las siguientes variables de entorno en el archivo .env
OPENAI_API_KEY
HF_TOKEN
Además, exporte la variable PYTHONPATH
para que todos los paquetes puedan funcionar correctamente. Para agregar PYTHONPATH
, escriba este comando en su terminal: export PYTHONPATH=$PYTHONPATH:
Nota Asegúrese de solicitar acceso al modelo Llama 2. Además, usamos HuggingFace para descargar el modelo llama2. Asegúrese de utilizar la misma identificación de correo electrónico que utilizó para solicitar el acceso al modelo llama 2. Genere el HF_TOKEN
y luego guárdelo en el archivo .env
Si está utilizando el conjunto de datos o el código, utilice el siguiente bibTEX:
@inproceedings{seth-etal-2024-dosa-dataset,
title = "{DOSA}: A Dataset of Social Artifacts from Different {I}ndian Geographical Subcultures",
author = "Seth, Agrima and
Ahuja, Sanchit and
Bali, Kalika and
Sitaram, Sunayana",
editor = "Calzolari, Nicoletta and
Kan, Min-Yen and
Hoste, Veronique and
Lenci, Alessandro and
Sakti, Sakriani and
Xue, Nianwen",
booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)",
month = may,
year = "2024",
address = "Torino, Italia",
publisher = "ELRA and ICCL",
url = "https://aclanthology.org/2024.lrec-main.474",
pages = "5323--5337",
abstract = "Generative models are increasingly being used in various applications, such as text generation, commonsense reasoning, and question-answering. To be effective globally, these models must be aware of and account for local socio-cultural contexts, making it necessary to have benchmarks to evaluate the models for their cultural familiarity. Since the training data for LLMs is web-based and the Web is limited in its representation of information, it does not capture knowledge present within communities that are not on the Web. Thus, these models exacerbate the inequities, semantic misalignment, and stereotypes from the Web. There has been a growing call for community-centered participatory research methods in NLP. In this work, we respond to this call by using participatory research methods to introduce DOSA, the first community-generated Dataset of 615 Social Artifacts, by engaging with 260 participants from 19 different Indian geographic subcultures. We use a gamified framework that relies on collective sensemaking to collect the names and descriptions of these artifacts such that the descriptions semantically align with the shared sensibilities of the individuals from those cultures. Next, we benchmark four popular LLMs and find that they show significant variation across regional sub-cultures in their ability to infer the artifacts.",
}
Este proyecto agradece contribuciones y sugerencias. La mayoría de las contribuciones requieren que usted acepte un Acuerdo de licencia de colaborador (CLA) que declara que tiene derecho a otorgarnos, y de hecho lo hace, los derechos para usar su contribución. Para obtener más detalles, visite https://cla.opensource.microsoft.com.
Cuando envía una solicitud de extracción, un bot CLA determinará automáticamente si necesita proporcionar un CLA y decorar el PR de manera adecuada (por ejemplo, verificación de estado, comentario). Simplemente siga las instrucciones proporcionadas por el bot. Solo necesitarás hacer esto una vez en todos los repositorios que utilicen nuestro CLA.
Este proyecto ha adoptado el Código de conducta de código abierto de Microsoft. Para obtener más información, consulte las preguntas frecuentes sobre el Código de conducta o comuníquese con [email protected] si tiene alguna pregunta o comentario adicional.
Este proyecto puede contener marcas comerciales o logotipos de proyectos, productos o servicios. El uso autorizado de las marcas comerciales o logotipos de Microsoft está sujeto y debe seguir las Pautas de marcas y marcas comerciales de Microsoft. El uso de marcas comerciales o logotipos de Microsoft en versiones modificadas de este proyecto no debe causar confusión ni implicar patrocinio de Microsoft. Cualquier uso de marcas comerciales o logotipos de terceros está sujeto a las políticas de dichos terceros.
Consulte nuestra licencia de datos aquí.
Puede leer más sobre la declaración de privacidad de Microsoft aquí.