ChatGPT génère souvent des mots qui peuvent nécessiter un dictionnaire pour être compris, ou propose des mots qui semblent tout simplement magiques. Cela n'est pas seulement vrai pour ChatGPT, d'autres modèles de langage open source comme Mistral font de même. Il n'y a aucun mal à demander l'aide de l'IA pour créer du contenu, à condition que cela soit fait de manière éthique, mais lors d'un concours d'écriture scientifique destiné aux 14-16 ans, un juge a eu des soupçons lorsqu'il a vu l'expression « Labyrinthes labyrinthiques » dans un essai. , ce qui semblait trop avancé pour un adolescent qui écrit. Il a donc utilisé des outils d’IA pour le vérifier. Malheureusement, les quatre outils ont donné le même résultat : la quasi-totalité de l'essai, environ 90 à 96 %, semblait avoir été écrite par l'IA et non par un humain. Cependant, nous ne sommes pas tous des professionnels. Si nous voyons la phrase ci-dessus, nous l'avons peut-être ignorée en raison de notre conscience limitée.
Des capacités de pensée critique sont nécessaires pour déterminer si l’IA est l’auteur
Le moyen le plus simple de repérer le texte généré par l'IA consiste à rechercher des mots que vous n'utilisez pas habituellement mais qui sont courants pour ChatGPT. Considérez un corpus massif de plus de 19 milliards de mots anglais provenant de blogs, d'articles, d'actualités et bien plus encore, mis à jour quotidiennement de 2010 à aujourd'hui. J'ai cherché le mot **« fouiller » **à l'aide d'un algorithme de recherche de chaîne, et il est apparu 52 388 fois . J'ai tracé son modèle annuel et identifié un comportement inhabituel, une croissance d' environ 200 % de son apparition sur Internet à partir de 2022, la même année où ChatGPT a été publié le 30 novembre.
D'autres mots, comme **« subtilités » **ou « inébranlable » , montrent également une augmentation similaire, tout comme « fouiller » . Ils sont utilisés plus souvent ces derniers temps.
Ce choix de vocabulaire n’est pas nécessairement quelque chose que l’IA utilise exclusivement, car les humains utilisent également une gamme variée de mots. Cependant, dans les écrits universitaires, nous utilisons souvent des expressions telles que « explorer » ou « discuter plus en détail » au lieu de « approfondir » . Je demande à ChatGPT de reformuler « discuter plus en détail… » , **** les cinq premières suggestions qu'il propose incluent généralement cette phrase.
De plus, j'essaie d'analyser la base de données arXiv, une célèbre plateforme d'édition d'articles contenant plus de 2 millions d'articles jusqu'en 2023. J'essaie de détecter le mot** « fouiller » ** dans les résumés des articles et de tracer son modèle annuel. J'ai été étonné de voir que ce mot a été largement utilisé dans les résumés d'articles en 2023 , le même mot que ChatGPT a suggéré dans ses 5 meilleures suggestions.
Cela indique que les rédacteurs universitaires peuvent utiliser ChatGPT, soit pour reformuler, soit pour générer du contenu. La présence du mot « fouiller » sert d'indice ou de doute sur le fait que le document soumis par un étudiant ou un blog en ligne, que ce soit ce paragraphe ou cette partie de texte, a été reformulé ou amélioré à l'aide de ChatGPT.
En m'appuyant sur mon expertise en recherche et mes deux années d'expérience de travail avec les LLM, j'ai dressé une liste assez complète de 100 mots que vous pouvez surveiller dans un morceau de texte pour vous aider à déterminer s'il a été généré ou paraphrasé en utilisant IA.
Mais vérifier un tel nombre de mots n'est pas une tâche facile, alors pour y parvenir rapidement, j'ai créé une application Web qui vérifie rapidement votre texte. Téléchargez simplement votre fichier ou collez votre texte, et il fera le reste. Très facile!