Un nuevo estudio del Brigham and Women's Hospital revela problemas de prejuicios raciales y de género en las aplicaciones médicas del modelo de lenguaje grande GPT-4. El equipo de investigación realizó una evaluación en profundidad del desempeño de GPT-4 en la toma de decisiones clínicas, incluida la generación de casos de pacientes, la formulación de planes de diagnóstico y tratamiento y la evaluación de las características de los pacientes. Los hallazgos muestran que GPT-4 tiene sesgos claros en cada uno de estos vínculos, lo que genera preocupaciones sobre el uso de modelos de lenguaje grandes en el campo médico y resalta la importancia de la evaluación de sesgos de los modelos de IA para evitar exacerbar la desigualdad social.
Investigadores del Brigham and Women's Hospital evaluaron GPT-4 en busca de prejuicios raciales y de género en la toma de decisiones clínicas. Descubrieron que GPT-4 tenía sesgos importantes a la hora de generar casos de pacientes, desarrollar planes de diagnóstico y tratamiento y evaluar las características de los pacientes. La investigación exige una evaluación de los sesgos de los modelos de lenguaje grandes para garantizar que su uso en medicina no exacerbe los sesgos sociales. Los hallazgos han sido publicados en la revista The Lancet Digital Health.
Los hallazgos son una advertencia de que los posibles problemas de sesgo deben considerarse y abordarse plenamente al aplicar la inteligencia artificial a áreas críticas como la atención médica. En el futuro, debemos desarrollar modelos de IA más justos y equitativos para garantizar que beneficien a toda la humanidad en lugar de exacerbar la injusticia social. La publicación de esta investigación también proporciona una referencia importante para el desarrollo y la aplicación de grandes modelos de lenguaje, lo que lleva a los desarrolladores a prestar más atención a la ética y la responsabilidad social de la IA.