Der Herausgeber von Downcodes erfuhr, dass die neueste Forschung von OpenAI ein interessantes Phänomen in ChatGPT enthüllte: den Einfluss von Benutzernamen auf KI-Antworten. Diese Studie bietet eine eingehende Analyse der Auswirkungen unterschiedlicher kultureller Hintergründe, Geschlechter und rassenbezogener Benutzernamen auf Unterschiede in den ChatGPT-Antworten. Die Forscher fanden heraus, dass der Effekt zwar im Allgemeinen gering war und hauptsächlich bei frühen oder nicht optimierten Versionen des Modells beobachtet wurde, bei bestimmten Aufgaben wie kreativem Schreiben jedoch das Geschlecht oder der Rassenhintergrund, die durch den Benutzernamen impliziert wurden, zu einigen stereotypen Inhalten beitrug. Beispielsweise führen weibliche Namen eher zu emotionalen Geschichten aus weiblicher Perspektive, während männliche Namen eher zu düstereren Erzählstilen führen. OpenAI hat die Voreingenommenheit der neuen Version von ChatGPT durch Reinforcement Learning und andere Technologien deutlich reduziert, muss aber weiterhin kontinuierlich verbessert werden.
Forscher von OpenAI haben kürzlich ein interessantes Phänomen entdeckt: Der Benutzername, den ein Benutzer bei der Interaktion mit ChatGPT wählt, kann einen subtilen Einfluss auf die Reaktion der KI haben. Allerdings ist dieser Effekt im Allgemeinen sehr gering und hauptsächlich auf ältere oder nicht optimierte Modellversionen beschränkt.
Die Studie gibt Aufschluss darüber, wie ChatGPT auf dieselbe Frage reagiert, wenn es mit Benutzernamen konfrontiert wird, die mit unterschiedlichen kulturellen Hintergründen, Geschlechtern und Rassen in Verbindung gebracht werden. Die Studie wählte Benutzernamen als Einstiegspunkt, da Namen häufig spezifische kulturelle, geschlechtsspezifische und rassische Konnotationen aufweisen, was sie zu einem wichtigen Faktor bei der Untersuchung von Vorurteilen macht. Vor allem, wenn man bedenkt, dass Benutzer bei der Erledigung von Aufgaben mit ChatGPT oft ihre eigenen Namen angeben.
Die Ergebnisse zeigen, dass die allgemeine Antwortqualität von ChatGPT zwar über alle demografischen Gruppen hinweg konsistent bleibt, bei einigen spezifischen Aufgaben jedoch eine gewisse Verzerrung besteht. Insbesondere beim kreativen Schreiben können manchmal Inhalte mit Stereotypen erstellt werden, die auf dem durch einen Benutzernamen vorgeschlagenen Geschlecht oder ethnischen Hintergrund basieren.
Im Hinblick auf die Geschlechterunterschiede ergab die Studie, dass ChatGPT bei der Verwendung weiblicher Namen dazu neigte, mehr Geschichten mit weiblichen Protagonistinnen und reichhaltigeren emotionalen Inhalten zu erschaffen. Männliche Namen hingegen können zu einem etwas düstereren Ton in der Geschichte führen. OpenAI gibt ein Beispiel für einen Benutzer namens Ashley: ChatGPT interpretiert ECE als frühkindliche Bildung, während es für Anthony als Elektro- und Computertechnik interpretiert.
Allerdings betont OpenAI, dass solche eindeutig stereotypen Reaktionen in ihren Tests selten vorkamen. Die offensichtlichste Verzerrung tritt hauptsächlich bei kreativen Aufgaben mit offenem Ende auf und ist in früheren Versionen von ChatGPT stärker ausgeprägt. Die Studie zeigt die Entwicklung der geschlechtsspezifischen Voreingenommenheit in verschiedenen KI-Modellen und -Aufgaben. Das GPT-3.5 Turbo-Modell weist bei der Storytelling-Aufgabe eine Verzerrung von bis zu 2 % auf. Neuere Modelle weisen niedrigere allgemeine Voreingenommenheitswerte auf, aber die neue Speicherfunktion von ChatGPT scheint die geschlechtsspezifische Voreingenommenheit zu verstärken.
Im Hinblick auf den Rassenhintergrund verglich die Studie die Antworten auf typische asiatische, schwarze, hispanische und weiße Namen. Ähnlich wie bei Geschlechterstereotypen zeigten kreative Aufgaben die größte Voreingenommenheit. Aber insgesamt war die rassistische Voreingenommenheit geringer als die geschlechtsspezifische Voreingenommenheit und trat nur in 0,1 % bis 1 % der Antworten auf. Reisebezogene Anfragen führten zu den stärksten rassistischen Vorurteilen.
OpenAI berichtet, dass die Verzerrung in der neuen Version von ChatGPT durch Techniken wie Reinforcement Learning (RL) deutlich reduziert wurde. Die Messungen des Unternehmens zeigen, dass die Verzerrung im angepassten Modell zwar nicht vollständig beseitigt ist, aber vernachlässigbar ist und bis zu 0,2 % beträgt.
Beispielsweise ist das neuere o1-mini-Modell in der Lage, das 44:4-Divisionsproblem für Melissa oder Anthony korrekt zu lösen, ohne irrelevante oder voreingenommene Informationen einzuführen. Vor der RL-Feinabstimmung würden sich die Antworten von ChatGPT an Benutzerin Melissa auf die Bibel und Babys beziehen, und die Antworten an Benutzer Anthony würden sich auf Chromosomen und genetische Algorithmen beziehen.
Insgesamt zeigt die Forschung von OpenAI potenzielle Verzerrungsprobleme in großen Sprachmodellen auf und zeigt, dass es möglich ist, diese Verzerrungen durch technische Mittel zu mildern. Diese Forschung liefert eine wichtige Referenz für die Fairness und Sicherheit zukünftiger KI-Modelle und erinnert uns auch daran, dass wir weiterhin auf das Problem der Voreingenommenheit in der KI achten und es lösen müssen. Der Herausgeber von Downcodes wird weiterhin auf die neuesten Entwicklungen im Bereich KI achten und Ihnen weitere spannende Inhalte bieten.