Medicat es un conjunto de datos de imágenes médicas, subtítulos, anotaciones de subfiguración de subcaptación y referencias textuales en línea. Aquí se proporcionan instrucciones para el acceso.
Las figuras y subtítulos se extraen de artículos de acceso abierto en el texto de referencia central de PubMed y correspondiente se deriva de S2ORC.
El conjunto de datos consiste en:
Una muestra de los datos está disponible en sample/
.
Una entrada de datos de ejemplo:
{
"pdf_hash": "57c9ad0f4aab133f96d40992c46926fabc901ffa",
"fig_key": "Figure1",
"fig_uri": "2-Figure1-1.png",
"s2_caption": "Figure 1. (A) Barium enema and (B) endoscopic image of the high-grade distal colonic obstruction caused by a 5-cm anastomotic stricture.",
"s2orc_caption": "Figure 1. (A) Barium enema and (B) endoscopic image of the high-grade distal colonic obstruction caused by a 5-cm anastomotic stricture.",
"s2orc_references": [
"Computed tomography (CT) showed a distal large bowel obstruction, and a barium enema revealed a high-grade stenosis proximal to the anastomotic site in the recto-sigmoid region (Figure 1 ).",
"Flexible sigmoidoscopy revealed a tight, fibrotic, benign-appearing anastomotic stricture 15 cm from the anal verge ( Figure 1) ."
],
"radiology": false,
"scope": true,
"predicted_type": "Medical images",
"oa_info": {
"doi": "10.14309/crj.2014.54",
"doi_url": "https://doi.org/10.14309/crj.2014.54",
"oa": {
"is_oa": true,
"oa_status": "gold",
"journal_is_oa": true,
"journal_is_in_doaj": true,
"license": "cc-by-nc-nd",
"provenance": "unpaywall"
}
}
}
La figura correspondiente se encuentra en figures/57c9ad0f4aab133f96d40992c46926fabc901ffa_2-Figure1-1.png
( {pdf_hash}_{fig_uri}
).
Por favor, complete este formulario para acceder. Si no ha recibido enlaces al conjunto de datos después de 5 días, comuníquese con [email protected] para preguntar. A veces, los correos electrónicos de acceso también terminan en cajas de spam, así que verifique allí primero antes de enviar un correo electrónico.
Consulte el directorio code
para el código asociado con nuestro documento. El code/README.md
incluye información adicional sobre cómo puede usar este código.
Si usa este conjunto de datos, cite:
@inproceedings{subramanian-2020-medicat,
title={{MedICaT: A Dataset of Medical Images, Captions, and Textual References}},
author={Sanjay Subramanian, Lucy Lu Wang, Sachin Mehta, Ben Bogin, Madeleine van Zuylen, Sravanthi Parasa, Sameer Singh, Matt Gardner, and Hannaneh Hajishirzi},
year={2020},
booktitle={Findings of EMNLP},
}
Cada documento fuente en Medicat tiene licencia de manera diferente. Los artículos incluidos en Medicat tienen licencias de acceso abierto (ver CC y UPW) o están en el dominio público. La licencia para cada artículo se proporciona en la entrada asociada en el conjunto de datos. Por favor, cumpla con estas licencias al usar. El conjunto de datos Medicat está disponible solo para uso no comercial.
Correo electrónico: {sanjays, lucyw}@allenai.org