Новое исследование Гарвардской медицинской школы и Стэнфордского университета показывает, что система искусственного интеллекта OpenAI o1-preview хорошо справляется с диагностикой сложных медицинских случаев и может даже превосходить врачей-людей. Исследование всесторонне протестировало o1-preview, и результаты были впечатляющими: точность и возможности медицинского рассуждения значительно превосходят предыдущие модели, а также превосходят опытных врачей и ординаторов. Данное исследование открывает новое направление применения искусственного интеллекта в медицинской сфере, а также вызывает дискуссию по этическим и практическим вопросам применения искусственного интеллекта в медицинской практике.
Новое исследование предполагает, что система искусственного интеллекта OpenAI o1-preview может лучше, чем врачи-люди, диагностировать сложные медицинские случаи. Исследовательские группы из Гарвардской медицинской школы и Стэнфордского университета провели комплексные медицинские диагностические тесты o1-preview, и результаты показали, что система значительно улучшилась по сравнению с более ранними версиями.
По результатам исследования, o1-preview достиг показателя правильной диагностики 78,3% среди всех протестированных случаев. При прямом сравнении 70 конкретных случаев точность диагностики системы достигла 88,6%, что значительно превзошло 72,9% у ее предшественницы GPT-4. С медицинской точки зрения производительность o1-preview также впечатляет. Используя шкалу R-IDEA, стандарт оценки качества медицинских рассуждений, система ИИ получила высший балл — 78 из 80 случаев. Для сравнения, опытные врачи получили высшие баллы только в 28 случаях, а ординаторы — только в 16 случаях.
Исследователи также признают, что o1-preview мог включить некоторые тестовые примеры в данные обучения. Однако когда они протестировали систему на новых случаях, производительность упала лишь незначительно. Доктор Адам Родман, один из авторов исследования, подчеркнул, что, хотя это исследование является эталонным, его результаты имеют важное значение для медицинской практики.
o1-preview показал себя особенно хорошо при работе со сложными случаями управления, специально разработанными 25 экспертами. «Люди бессильны перед лицом этих проблем, но производительность O1 потрясающая», — объяснил Родман. В этих сложных случаях o1-preview достиг 86%, в то время как врачи, использующие GPT-4, достигли только 41%, а традиционные инструменты - только 34%.
Однако o1-preview не лишен недостатков. Что касается оценки вероятности, производительность системы существенно не улучшилась. Например, при оценке вероятности пневмонии o1-preview дал оценку 70%, что значительно превышает научный диапазон 25–42%. Исследователи обнаружили, что o1-preview хорошо справляется с задачами, требующими критического мышления, но не справляется с более абстрактными задачами, такими как оценка вероятностей.
Кроме того, o1-preview часто дает подробные ответы, что могло повысить его рейтинг. Однако исследование было сосредоточено только на работе o1-preview в одиночку и не оценивало его эффект в сотрудничестве с врачами. Некоторые критики отмечают, что диагностические тесты, предлагаемые o1-preview, часто являются дорогостоящими и непрактичными.
Хотя OpenAI выпустила новые версии o1 и o3 и хорошо справляется со сложными задачами вывода, эти более мощные модели по-прежнему не могут решить проблемы практического применения и стоимости, поднятые критиками. Родман призвал исследователей искать более эффективные способы оценки медицинских систем искусственного интеллекта, чтобы учитывать сложность реальных медицинских решений. Он подчеркнул, что это исследование не призвано заменить врачей, а реальное лечение по-прежнему требует участия человека.
Статья: https://arxiv.org/abs/2412.10849.
Выделять:
o1-preview превзошел врачей по уровню диагностики, достигнув точности 88,6%.
С точки зрения медицины, o1-preview получил 78 высших оценок из 80 случаев, что намного превышает результаты врачей.
Несмотря на отличную производительность, высокую стоимость o1-preview и нереалистичные рекомендации по тестированию в практических приложениях все еще необходимо учитывать.
В целом, это исследование демонстрирует большой потенциал искусственного интеллекта в области медицинской диагностики, но оно также напоминает нам о том, что нам нужно с осторожностью относиться к применению ИИ в медицинской практике и обращать внимание на его ограничения и потенциальные риски. В будущем необходимы исследования и улучшения, чтобы гарантировать, что ИИ может безопасно и эффективно помогать в медицинской работе и лучше служить здоровью человека.