OpenAI-Forschung: ChatGPT-Geschlecht und Rassenvoreingenommenheit sind geschwächt, Benutzernamen können ebenfalls Voreingenommenheit hervorrufen

Autor：Eve Cole Aktualisierungszeit：2024-12-03 11:48:01

Der Herausgeber von Downcodes wird Sie über die neuesten Forschungsergebnisse von OpenAI informieren: Die Antworten von ChatGPT werden tatsächlich vom Benutzernamen beeinflusst! Diese Studie zeigt, wie Informationen wie Kultur, Geschlecht und Rassenhintergrund, die im Namen eines Benutzers enthalten sind, die Reaktionen der KI subtil beeinflussen, wenn ein Benutzer mit ChatGPT interagiert. Obwohl die Auswirkungen minimal sind und hauptsächlich bei älteren Modellen zum Ausdruck kommen, geben sie dennoch Anlass zur Sorge hinsichtlich der KI-Voreingenommenheit. Durch den Vergleich der ChatGPT-Antworten unter verschiedenen Benutzernamen untersuchten die Forscher, wie diese Verzerrung entsteht und wie dieser Effekt mit technischen Mitteln abgemildert werden kann.

Kürzlich hat das Forschungsteam von OpenAI herausgefunden, dass der gewählte Benutzername bei der Interaktion von Benutzern mit ChatGPT die Antworten der KI in gewissem Maße beeinflussen kann. Obwohl der Effekt gering ist und hauptsächlich bei älteren Modellen beobachtet wird, sind die Ergebnisse dennoch interessant. Benutzer geben ChatGPT häufig ihre Namen für Aufgaben an, sodass der in den Namen enthaltene kulturelle, geschlechtsspezifische und rassische Hintergrund zu einem wichtigen Faktor bei der Untersuchung von Voreingenommenheit wird.

In dieser Studie untersuchten Forscher, wie ChatGPT bei demselben Problem unterschiedlich auf verschiedene Benutzernamen reagierte. Die Studie ergab, dass, obwohl die Gesamtqualität der Antworten in allen Gruppen konsistent war, bei bestimmten Aufgaben Verzerrungen auftraten. Insbesondere bei kreativen Schreibaufgaben generiert ChatGPT manchmal Inhalte, die stereotyp sind, basierend auf dem Geschlecht oder der Rasse des Namens eines Benutzers.

Wenn Benutzer beispielsweise weibliche Namen haben, tendiert ChatGPT dazu, Geschichten mit weiblichen Protagonisten und reichhaltigeren emotionalen Inhalten zu erstellen, während Benutzer mit männlichen Namen etwas düsterere Handlungsstränge erhalten. Ein weiteres konkretes Beispiel zeigt, dass ChatGPT „ECE“ als „frühkindliche Bildung“ interpretiert, für einen Benutzer namens Anthony interpretiert ChatGPT es als „Elektro- und Computertechnik“.

Während diese voreingenommenen Antworten in den OpenAI-Tests weniger häufig auftraten, war die Voreingenommenheit in älteren Versionen stärker ausgeprägt. Die Daten zeigen, dass das GPT-3.5Turbo-Modell mit 2 % die höchste Bias-Rate bei der Storytelling-Aufgabe aufweist. Und neuere Modelle weisen niedrigere Bias-Werte auf. Allerdings stellte OpenAI auch fest, dass die neue Speicherfunktion von ChatGPT die geschlechtsspezifische Voreingenommenheit verstärken könnte.

Darüber hinaus wurden in der Forschung Vorurteile untersucht, die mit unterschiedlichen ethnischen Hintergründen verbunden sind. Durch den Vergleich von Namen, die üblicherweise mit Asiaten, Schwarzen, Latinos und Weißen in Verbindung gebracht werden, stellte die Studie fest, dass es bei kreativen Aufgaben zwar rassistische Vorurteile gibt, der Gesamtgrad der Voreingenommenheit ist jedoch geringer als der geschlechtsspezifische Voreingenommenheit und liegt typischerweise zwischen 0,1 % und 1 %. Reisebezogene Anfragen weisen eine starke rassistische Voreingenommenheit auf.

OpenAI sagte, dass die neue Version von ChatGPT durch Techniken wie Reinforcement Learning die Voreingenommenheit deutlich reduziert . In diesen neuen Modellen betrug die Inzidenz von Verzerrungen nur 0,2 %. Beispielsweise kann das neueste o1-mini-Modell Melissa und Anthony bei der Lösung des Teilungsproblems „44:4“ unvoreingenommene Informationen liefern. Vor der Feinabstimmung des Verstärkungslernens bezog sich ChatGPTs Antwort auf Melissa auf die Bibel und Babys und auf Anthonys Antwort auf Chromosomen und genetische Algorithmen.

Highlight:

Der vom Benutzer ausgewählte Benutzername hat einen leichten Einfluss auf die Antworten von ChatGPT, hauptsächlich bei kreativen Schreibaufgaben.

Weibliche Namen veranlassen ChatGPT im Allgemeinen dazu, emotionalere Geschichten zu erschaffen, während männliche Namen tendenziell zu düstereren Erzählstilen tendieren.

Die neue Version von ChatGPT hat das Auftreten von Verzerrungen durch verstärkendes Lernen deutlich reduziert und der Grad der Verzerrung wurde auf 0,2 % reduziert.

Alles in allem erinnert uns diese Studie von OpenAI daran, dass selbst scheinbar fortschrittliche KI-Modelle Vorurteile bergen können. Die kontinuierliche Verbesserung und Perfektionierung von KI-Modellen sowie die Beseitigung von Vorurteilen sind wichtige Richtungen für die zukünftige Entwicklung. Der Herausgeber von Downcodes wird sich weiterhin mit dem technologischen Fortschritt und den ethischen Herausforderungen im Bereich KI befassen und Ihnen weitere spannende Berichte bringen!