MD Zobaer Hossain, Linfei Zhang, Robert Van Timmeren et Ramon Meffert, juin 2022
Ce référentiel contient le code source pour les expériences, le traitement des données et l'analyse des données menées dans le cadre de notre projet de cours pour l'édition 2021-2022 du cours du projet de technologie linguistique à l'Université de Groningen.
Tous les fichiers liés aux ensembles de données sont situés dans le dossier des ensembles de données. Nous avons pris les fichiers d'ensemble de données d'origine et les avons transformés au format d'ensemble de données HuggingFace. Tous les dossiers de l'ensemble de données contiennent les fichiers de données d'origine, un cahier d'analyse et un fichier de démonstration montrant comment vous utilisez l'ensemble de données.
Tout le code pour les expériences est situé dans le dossier des expériences. Des informations sur la façon de reproduire les expériences sont disponibles dans le ReadMe dans ce dossier.
Les résultats pour toutes les méthodes peuvent être trouvés dans le dossier Résultats. Des informations sur les résultats sont disponibles dans le ReadMe dans ce dossier.
Black, S., G. Leo, P. Wang, C. Leahy et S. Biderman (2021, mars). GPT-NEO: Modélisation du langage autorégressive à grande échelle avec Mesh-TensorFlow. https://doi.org/105281/zenodo.5297715.
Devlin, J., M.-W. Chang, K. Lee et K. Toutanova (2019, juin). Bert: Pré-formation des transformateurs bidirectionnels profonds pour la compréhension du langage. Dans Actes de la Conférence de 2019 du chapitre nord-américain de l'Association for Computational Linguistics: Human Language Technologies, Volume 1 (Papiers longs et courts) , Minneapolis, Minnesota, pp. 4171–4186. Association pour la linguistique informatique.
Gao, T., A. Fisch et D. Chen (2021, août). Faire de modèles de langue pré-formés meilleurs apprenants à quelques tirs. Dans les actes de la 59e réunion annuelle de l'Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) , Online, pp. 3816–3830. Association pour la linguistique informatique.
Liu, Y., M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer et V. Stoyanov (2019). ROBERTA: une approche de pré-formation de Bert optimisée à optimisation. Corr ABS / 1907.11692 .
Park, J. et Cardie, C. (2014). Identification de la prise en charge appropriée pour les propositions dans les commentaires des utilisateurs en ligne. Actes du premier atelier sur l'exploitation d'arguments , 29–38. https://doi.org/10/gg29gq
Schick, T. et H. Schütze (2021). Exploitation des questions de cloze pour la classification du texte à quelques coups et l'inférence du langage naturel. Dans les actes de la 16e conférence du chapitre européen de l'Association de la linguistique informatique: Volume principal , en ligne, pp. 255-269. Association pour la linguistique informatique.