Medicat est un ensemble de données d'images médicales, de légendes, d'annotations de subccraction de sous-figures et de références textuelles en ligne. Les instructions d'accès sont fournies ici.
Les figures et les légendes sont extraites des articles en libre accès dans PubMed Central et le texte de référence correspondant est dérivé de S2ORC.
L'ensemble de données se compose de:
Un échantillon des données est disponible en sample/
.
Un exemple de saisie de données:
{
"pdf_hash": "57c9ad0f4aab133f96d40992c46926fabc901ffa",
"fig_key": "Figure1",
"fig_uri": "2-Figure1-1.png",
"s2_caption": "Figure 1. (A) Barium enema and (B) endoscopic image of the high-grade distal colonic obstruction caused by a 5-cm anastomotic stricture.",
"s2orc_caption": "Figure 1. (A) Barium enema and (B) endoscopic image of the high-grade distal colonic obstruction caused by a 5-cm anastomotic stricture.",
"s2orc_references": [
"Computed tomography (CT) showed a distal large bowel obstruction, and a barium enema revealed a high-grade stenosis proximal to the anastomotic site in the recto-sigmoid region (Figure 1 ).",
"Flexible sigmoidoscopy revealed a tight, fibrotic, benign-appearing anastomotic stricture 15 cm from the anal verge ( Figure 1) ."
],
"radiology": false,
"scope": true,
"predicted_type": "Medical images",
"oa_info": {
"doi": "10.14309/crj.2014.54",
"doi_url": "https://doi.org/10.14309/crj.2014.54",
"oa": {
"is_oa": true,
"oa_status": "gold",
"journal_is_oa": true,
"journal_is_in_doaj": true,
"license": "cc-by-nc-nd",
"provenance": "unpaywall"
}
}
}
La figure correspondante est située sur figures/57c9ad0f4aab133f96d40992c46926fabc901ffa_2-Figure1-1.png
( {pdf_hash}_{fig_uri}
).
Veuillez remplir ce formulaire pour l'accès. Si vous n'avez pas reçu de liens vers l'ensemble de données après 5 jours, veuillez contacter [email protected] pour vous renseigner. Parfois, les e-mails d'accès se retrouvent également dans des boîtes de spam, veuillez donc y vérifier avant un e-mail.
Veuillez consulter le répertoire code
pour le code associé à notre article. Le code/README.md
comprend des informations supplémentaires sur la façon dont vous pouvez utiliser ce code.
Si vous utilisez cet ensemble de données, veuillez citer:
@inproceedings{subramanian-2020-medicat,
title={{MedICaT: A Dataset of Medical Images, Captions, and Textual References}},
author={Sanjay Subramanian, Lucy Lu Wang, Sachin Mehta, Ben Bogin, Madeleine van Zuylen, Sravanthi Parasa, Sameer Singh, Matt Gardner, and Hannaneh Hajishirzi},
year={2020},
booktitle={Findings of EMNLP},
}
Chaque document source dans Medicat est sous licence différemment. Les articles inclus dans Medicat ont des licences en libre accès (voir CC et UPW) ou se trouvent dans le domaine public. La licence pour chaque article est fournie dans l'entrée associée dans l'ensemble de données. Veuillez respecter ces licences lors de l'utilisation. L'ensemble de données Medicat est disponible pour une utilisation non commerciale uniquement.
Courriel: {sanjays, lucyw}@allenai.org