Download DOSA - Download do código-fonte DOSA

DOSA

Outro código-fonte

1.0.0

Baixar

DOSA: um conjunto de dados de artefatos sociais de diferentes subculturas geográficas indianas

Este repositório hospeda o código para executar experimentos no conjunto de dados DOSA .

Criar ambiente

Crie o ambiente dosa conda executando create_env.py

Ative o ambiente executando conda activate dosa

Variáveis de ambiente

Defina as variáveis de ambiente abaixo no arquivo .env

OPENAI_API_KEY
HF_TOKEN

Além disso, exporte a variável PYTHONPATH para que todos os pacotes possam funcionar corretamente. Para adicionar PYTHONPATH , escreva este comando em seu terminal: export PYTHONPATH=$PYTHONPATH:<path to cultural_artifacts>

Nota Certifique-se de solicitar acesso ao modelo Llama 2. Além disso, usamos HuggingFace para baixar o modelo llama2. Certifique-se de usar o mesmo ID de e-mail usado para solicitar o acesso ao modelo lhama 2. Gere o HF_TOKEN e armazene-o no arquivo .env

Citação

Se você estiver usando o conjunto de dados ou o código, use o seguinte bibTEX:

@inproceedings{seth-etal-2024-dosa-dataset,
    title = "{DOSA}: A Dataset of Social Artifacts from Different {I}ndian Geographical Subcultures",
    author = "Seth, Agrima  and
      Ahuja, Sanchit  and
      Bali, Kalika  and
      Sitaram, Sunayana",
    editor = "Calzolari, Nicoletta  and
      Kan, Min-Yen  and
      Hoste, Veronique  and
      Lenci, Alessandro  and
      Sakti, Sakriani  and
      Xue, Nianwen",
    booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)",
    month = may,
    year = "2024",
    address = "Torino, Italia",
    publisher = "ELRA and ICCL",
    url = "https://aclanthology.org/2024.lrec-main.474",
    pages = "5323--5337",
    abstract = "Generative models are increasingly being used in various applications, such as text generation, commonsense reasoning, and question-answering. To be effective globally, these models must be aware of and account for local socio-cultural contexts, making it necessary to have benchmarks to evaluate the models for their cultural familiarity. Since the training data for LLMs is web-based and the Web is limited in its representation of information, it does not capture knowledge present within communities that are not on the Web. Thus, these models exacerbate the inequities, semantic misalignment, and stereotypes from the Web. There has been a growing call for community-centered participatory research methods in NLP. In this work, we respond to this call by using participatory research methods to introduce DOSA, the first community-generated Dataset of 615 Social Artifacts, by engaging with 260 participants from 19 different Indian geographic subcultures. We use a gamified framework that relies on collective sensemaking to collect the names and descriptions of these artifacts such that the descriptions semantically align with the shared sensibilities of the individuals from those cultures. Next, we benchmark four popular LLMs and find that they show significant variation across regional sub-cultures in their ability to infer the artifacts.",
}

Contribuindo

Este projeto aceita contribuições e sugestões. A maioria das contribuições exige que você concorde com um Contrato de Licença de Colaborador (CLA), declarando que você tem o direito de nos conceder, e realmente nos concede, os direitos de uso de sua contribuição. Para obter detalhes, visite https://cla.opensource.microsoft.com.

Quando você envia uma solicitação pull, um bot CLA determinará automaticamente se você precisa fornecer um CLA e decorará o PR adequadamente (por exemplo, verificação de status, comentário). Basta seguir as instruções fornecidas pelo bot. Você só precisará fazer isso uma vez em todos os repositórios usando nosso CLA.

Este projeto adotou o Código de Conduta de Código Aberto da Microsoft. Para obter mais informações, consulte as Perguntas frequentes sobre o Código de Conduta ou entre em contato com [email protected] com perguntas ou comentários adicionais.

Marcas registradas

Este projeto pode conter marcas registradas ou logotipos de projetos, produtos ou serviços. O uso autorizado de marcas registradas ou logotipos da Microsoft está sujeito e deve seguir as Diretrizes de Marcas Registradas e Marcas da Microsoft. O uso de marcas registradas ou logotipos da Microsoft em versões modificadas deste projeto não deve causar confusão nem implicar patrocínio da Microsoft. Qualquer uso de marcas registradas ou logotipos de terceiros está sujeito às políticas desses terceiros.