aanrelease2013.tar.gz
عبارة عن فوضى.
papers_text/
(النص العادي المستخرج من ملف PDF) مشكلات:P00-1032
، W06-3709
)T75-2033
، إلى غير قابل للاستخدام، على سبيل المثال، J79-1013
)C73-2029
)L08-1302
) يوفر Makefile
بشكل صريح بعض الوثائق حول المشكلات وأعمال التنظيف المعنية.
لا يحتوي هذا المستودع على أي من البيانات الأصلية، بل يحتوي فقط على وصف برمجي لكيفية إصلاحها.
للتشغيل، قم باستدعاء make
في الدليل الجذر.
تعرض واجهة شبكة مختارات ACL التابعة لمجموعة CLAIR التابعة لجامعة ميشيغان الإحصائيات التالية:
يقيس | قيمة |
---|---|
عدد الأوراق | 21,212 |
عدد المؤلفين | 17,792 |
عدد الأماكن | 342 |
عدد الاستشهادات الورقية | 110,975 |
عدد تعاونات المؤلف | 142,450 |
قطر شبكة الاقتباس | 22 |
قطر شبكة التعاون | 15 |
وبعضها غير دقيق، أو يصف مصدرًا واحدًا فقط من مصادر البيانات. تحتوي المصادر المختلفة في مجموعة البيانات على مجموعات فرعية مختلفة من البيانات؛ على سبيل المثال، يتم تسجيل الاستشهادات لبعض الأبحاث التي لا تحتوي على ملف papers_text/
(على سبيل المثال، L08-1098
).
aan/release/2013/acl.txt
يقيس | قيمة |
---|---|
نقلا عن العلاقات المذكورة | 110,930 |
أوراق الاستشهاد فريدة من نوعها | 16,554 |
متوسط مقتبس لكل اقتباس | 6.7011 |
أوراق مستشهد بها فريدة من نوعها | 12,840 |
متوسط نقلا عن كل المذكورة | 8.6394 |
أوراق فريدة من نوعها | 18,160 |
أوراق فريدة من نوعها يتم الاستشهاد بها والاستشهاد بها | 11,234 |
أفضل 10 أوراق بحثية تم الاستشهاد بها | # من الأوراق المستشهد بها | المؤلفين | عنوان |
---|---|---|---|
J93-2004 | 928 | ميتشل وآخرون. | بناء مجموعة كبيرة مشروحة من اللغة الإنجليزية: اللغويات الحاسوبية بن تريبانك |
ص02-1040 | 891 | بابينيني وآخرون. | بلو: طريقة للتقييم التلقائي للترجمة الآلية |
J93-2003 | 729 | براون وآخرون. | رياضيات الترجمة الآلية الإحصائية: تقدير المعلمات |
ص03-1021 | 667 | اوك وجوزيف | التدريب على الحد الأدنى لمعدل الخطأ في الترجمة الآلية الإحصائية |
J03-1002 | 656 | اوك وجوزيف | مقارنة منهجية لنماذج المحاذاة الإحصائية المختلفة |
ص07-2045 | 591 | كوهن وآخرون. | موسى: مجموعة أدوات مفتوحة المصدر للترجمة الآلية الإحصائية |
N03-1017 | 556 | كوهن وآخرون. | الترجمة المعتمدة على العبارات الإحصائية |
ص03-1054 | 394 | كلاين ومانينغ | تحليل دقيق غير معجمي |
J96-1002 | 376 | بيرغر وآخرون. | أقصى قدر من الإنتروبيا لمعالجة اللغات الطبيعية |
A00-2018 | 371 | تشارنياك | محلل مستوحى من الإنتروبيا القصوى |
أعلى 10 أوراق الأكثر استشهادا | # من الأوراق المذكورة |
---|---|
ص10-1142 | 88 |
J10-3003 | 80 |
W13-4917 | 71 |
W13-2201 | 65 |
J12-1006 | 62 |
J98-1001 | 59 |
J13-2003 | 59 |
J07-4004 | 57 |
J11-2002 | 52 |
D11-1108 | 52 |
aan/release/2013/acl-metadata.txt
تنسيق هذا الملف، بصراحة، محير. البنية العامة هي BibTeX-esque، ولكن لا يمكن لأي محلل BibTeX التعامل معها. والأسوأ من ذلك أن خليط الترميزات مجنون! إذا كانت ftfy
تبحث في أي وقت عن دراسة حالة رائعة في العالم الحقيقي، فستكون هذه هي الحال.
author
واحد مفقود، W10-4238
، و16308 تسلسل author
فريد (يسرد author
جميع المؤلفين لهذه الورقة).aan/papers_text/???-????.txt
هناك الكثير من الملفات الأخرى في هذا الدليل؛ يتم تقسيم بعض الأوراق إلى أقسام الجسم والمراجع؛ هناك بعض الملفات التي يبدو أنها كانت مخصصة للذهاب إلى aan/release/2013/
؛ والعديد من الملفات التي تطابق هذا النمط فارغة.
papers_text/
.papers_text/
. على الرغم من هذه العيوب، تعد شبكة مختارات ACL مصدرًا رائعًا؛ شكرا جزيلا للعديد من المساهمين.
دراغومير ر. راديف، براديب موثوكريشنان، وحيد قزوينيان، أمجد أبو جبارة. 2013. مجموعة شبكة مختارات ACL. الموارد اللغوية والتقييم 47 (4)، الصفحات من 919 إلى 944. 10.1007/s10579-012-9211-2.
حقوق الطبع والنشر 2016-2018 كريستوفر براون. مرخص من معهد ماساتشوستس للتكنولوجيا.