A equipe UCSC-VLAA lançou o enorme conjunto de dados médicos multimodais MedTrinity-25M, que contém 25 milhões de imagens médicas e anotações detalhadas, marcando um grande salto nos recursos de dados na área médica. A anotação multigranular deste conjunto de dados permite aos pesquisadores compreender e aplicar dados médicos mais profundamente e fornece uma base sólida para o treinamento de grandes modelos médicos multimodais avançados. O processo de construção do MedTrinity-25M incorpora uma variedade de tecnologias, incluindo processamento sofisticado de dados, integração de metadados, geração de descrição assistida por modelo de linguagem em larga escala (MLLM), etc., o que melhora significativamente a usabilidade e o valor de pesquisa dos dados.
O conjunto de dados multimodais em grande escala "MedTrinity-25M" da equipe UCSC-VLAA é lançado oficialmente. Este conjunto de dados contém 25 milhões de imagens médicas e anotações detalhadas. Pode ser descrito como uma inovação importante na área médica. Possui anotações multigranulares que podem ajudar os pesquisadores a compreender e aplicar melhor os dados médicos e ser usados para treinar grandes modelos médicos multimodais.
O processo de construção do MedTrinity-25M é bastante complicado. Após cuidadoso processamento de dados, a equipe extraiu informações importantes obtidas de vários tipos de dados, integrou metadados, gerou títulos aproximados, localizou áreas de interesse e coletou informações médicas relevantes. O mais interessante é que eles usaram essas informações para gerar descrições detalhadas usando modelos de linguagem em larga escala (MLLM). Esta abordagem não só melhora a disponibilidade de dados, mas também abre novos rumos para a investigação médica.
Falando sobre o processo de lançamento, vale a pena mencionar que o conjunto de dados de demonstração do MedTrinity-25M está online já em junho de 2024, enquanto o conjunto de dados completo foi lançado oficialmente em 21 de julho e, mais recentemente, em 7 de agosto, eles também publicaram documentos relacionados.
Além do conjunto de dados em si, a equipe também fornece uma série de modelos pré-treinados, como o LLaVA-Med++, que apresentam bom desempenho em diversas tarefas médicas. Os pesquisadores podem usar essas ferramentas para melhor concluir seus projetos, melhorando significativamente a eficiência da pesquisa médica.
MedTrinity-25M fornece um recurso valioso para a comunidade médica. Espero que todos possam fazer pleno uso deste conjunto de dados para promover o desenvolvimento da pesquisa médica.
Entrada do projeto: https://top.aibase.com/tool/medtrinity-25m
O lançamento do conjunto de dados MedTrinity-25M e seus modelos de suporte proporciona um impulso poderoso para a pesquisa médica em inteligência artificial. Esperamos que este conjunto de dados promova avanços na análise de imagens médicas, diagnóstico de doenças e outros campos e, em última análise, beneficie mais pacientes. Os pesquisadores são bem-vindos a visitar o portal do projeto para saber mais sobre e utilizar este valioso recurso.