أصدر فريق UCSC-VLAA مجموعة البيانات الطبية الضخمة متعددة الوسائط MedTrinity-25M، والتي تحتوي على 25 مليون صورة طبية وشروح مفصلة، مما يمثل قفزة كبيرة في موارد البيانات في المجال الطبي. يتيح التعليق التوضيحي متعدد الحبيبات لمجموعة البيانات هذه للباحثين فهم البيانات الطبية وتطبيقها بشكل أكثر عمقًا ويوفر أساسًا متينًا لتدريب النماذج الكبيرة الطبية المتقدمة متعددة الوسائط. تشتمل عملية بناء MedTrinity-25M على مجموعة متنوعة من التقنيات، بما في ذلك معالجة البيانات المتطورة، وتكامل البيانات الوصفية، وتوليد الوصف بمساعدة نموذج اللغة واسع النطاق (MLLM)، وما إلى ذلك، مما يحسن بشكل كبير من سهولة الاستخدام والقيمة البحثية للبيانات.
تم إصدار مجموعة البيانات متعددة الوسائط واسعة النطاق "MedTrinity-25M" من فريق UCSC-VLAA رسميًا. تحتوي مجموعة البيانات هذه على 25 مليون صورة طبية وشروح مفصلة. يمكن وصفه بأنه ابتكار مهم في المجال الطبي، فهو يحتوي على شروح متعددة الحبيبات يمكن أن تساعد الباحثين على فهم البيانات الطبية وتطبيقها بشكل أفضل واستخدامها لتدريب النماذج الطبية الكبيرة متعددة الوسائط.
تعد عملية بناء MedTrinity-25M معقدة للغاية، وبعد معالجة البيانات بعناية، استخرج الفريق المعلومات الأساسية التي تم الحصول عليها من أنواع مختلفة من البيانات، والبيانات الوصفية المتكاملة، وأنشأ عناوين تقريبية، وحدد مجالات الاهتمام، وجمع المعلومات الطبية ذات الصلة. والأمر الأكثر إثارة للاهتمام هو أنهم استخدموا هذه المعلومات لإنشاء أوصاف تفصيلية باستخدام نماذج اللغة واسعة النطاق (MLLM). لا يؤدي هذا النهج إلى تحسين توافر البيانات فحسب، بل يفتح أيضًا اتجاهات جديدة للبحث الطبي.
بالحديث عن عملية الإصدار، تجدر الإشارة إلى أن مجموعة البيانات التجريبية لـ MedTrinity-25M كانت متاحة على الإنترنت في وقت مبكر من يونيو 2024، في حين تم إصدار مجموعة البيانات الكاملة رسميًا في 21 يوليو، وآخرها في 7 أغسطس، كما تم نشرها أيضًا الأوراق ذات الصلة.
بالإضافة إلى مجموعة البيانات نفسها، يوفر الفريق أيضًا سلسلة من النماذج المدربة مسبقًا، مثل LLaVA-Med++، والتي تؤدي أداءً جيدًا في مهام طبية متعددة. يمكن للباحثين استخدام هذه الأدوات لإكمال مشاريعهم بشكل أفضل، مما يؤدي إلى تحسين كفاءة البحث الطبي بشكل كبير.
يوفر MedTrinity-25M موردًا قيمًا للمجتمع الطبي وآمل أن يتمكن الجميع من الاستفادة الكاملة من مجموعة البيانات هذه لتعزيز تطوير البحوث الطبية.
مدخل المشروع: https://top.aibase.com/tool/medtrinity-25m
يوفر إصدار مجموعة بيانات MedTrinity-25M والنماذج الداعمة لها دفعة قوية لأبحاث الذكاء الاصطناعي الطبي. ونتوقع أن تؤدي مجموعة البيانات هذه إلى تعزيز الإنجازات في تحليل الصور الطبية وتشخيص الأمراض وغيرها من المجالات، وفي نهاية المطاف إفادة المزيد من المرضى. نرحب بالباحثين لزيارة بوابة المشروع لمعرفة المزيد حول هذا المورد القيم والاستفادة منه.