MD Zobaer Hossain, Linfei Zhang, Robert Van Timmerren e Ramon Meffert, junho de 2022
Esse repositório contém o código -fonte para os experimentos, processamento de dados e análise de dados conduzidos como parte do nosso projeto de curso para a edição de 2021-2022 do Curso de Projeto de Tecnologia de Idiomas da Universidade de Groningen.
Todos os arquivos relacionados aos conjuntos de dados estão localizados na pasta DataSets. Pegamos os arquivos originais do conjunto de dados e os transformamos no formato do conjunto de dados HuggingFace. Todas as pastas do conjunto de dados contêm os arquivos originais do conjunto de dados, um notebook de análise e um arquivo de demonstração mostrando como você usa o conjunto de dados.
Todo o código para experimentos está localizado na pasta Experimentos. Informações sobre como reproduzir os experimentos estão disponíveis no ReadMe nessa pasta.
Os resultados para todos os métodos podem ser encontrados na pasta de resultados. Informações sobre os resultados estão disponíveis no ReadMe nessa pasta.
Black, S., G. Leo, P. Wang, C. Leahy e S. Biderman (2021, março). GPT-NEO: Modelagem de linguagem autoregressiva em larga escala com malha-tensorflow. https://doi.org/105281/zenodo.5297715.
Devlin, J., M.-W. Chang, K. Lee e K. Toutanova (2019, junho). Bert: Pré-treinamento de transformadores bidirecionais profundos para o entendimento da linguagem. Em Anais da Conferência de 2019 do Capítulo Norte -Americano da Associação de Linguística Computacional: Tecnologias de Linguagem Humana, Volume 1 (artigos longos e curtos) , Minneapolis, Minnesota, pp. 4171-4186. Associação para Linguística Computacional.
Gao, T., A. Fisch e D. Chen (2021, agosto). Fazendo modelos de idiomas pré-treinados melhores alunos de poucos anos. Em Anais da 59ª Reunião Anual da Associação de Linguística Computacional e da 11ª Conferência Conjunta Internacional sobre Processamento de Linguagem Natural (Volume 1: Long Papers) , Online, pp. 3816-3830. Associação para Linguística Computacional.
Liu, Y., M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer e V. Stoyanov (2019). Roberta: Uma abordagem de pré -treinamento de Bert robustamente otimizada. CORR ABS/1907.11692 .
Park, J. & Cardie, C. (2014). Identificando o suporte adequado para proposições nos comentários do usuário on -line. Anais do primeiro workshop sobre argumentação de mineração , 29-38. https://doi.org/10/gg29gq
Schick, T. e H. Schütze (2021). Explorando as perguntas de cloze para classificação de texto com poucas fotos e inferência de linguagem natural. Em Anais da 16ª Conferência do Capítulo Europeu da Associação de Linguística Computacional: Volume Principal , Online, pp. 255–269. Associação para Linguística Computacional.