The name list was obtained from "ENAMDICT/JMnedict - Japanese Proper Names Dictionary Files", available here.
تمت إزالة الإدخالات التي لا تبدأ مع Kanji لاستبعاد الأسماء الأجنبية. تم ذلك بمجرد العثور على الإدخال الأول بدءًا من Kanji وإزالة الإدخالات السابقة. نظرًا لأن تلك التي تبدأ مع Hiragana أو Katakana تسبق Kanji ، فقد تمت إزالتها أيضًا من خلال نفس العملية. كان الإدخال الأخير على الملف يتكون من Kanji ، لذلك لم يكن هناك شيء لإزالته من نهاية الملف. filtered
اسم الملف الناتج.
تم تقسيم تلك القائمة إلى ذكر وإناث أسماء ، والآخر ، والألقاب ، والأماكن ، وما إلى ذلك ، تم تجاهلها. هناك بالفعل اسم عائلي ANKI DECK متوفر على Ankiweb ، وبسبب ذلك لن ألغىها.
لإزالة جميع الإدخالات التي ليست اسمًا للذكور (Fe) ، كانت الخطوط التي تحتوي على regexp هي ^.*/([^m]{1-8}).*n
لا شيء. تمت إزالة الإدخالات التي يمكن أن تكون من أكثر من فئة واحدة باستخدام ^.*/(.,.+).*n
. قائمة الذكور (الإناث) الأسماء تسمى الذكور والإناث. هناك 97008 أنثى أسماء و 19025 الذكور.
هناك العديد من الإدخالات مع نفس المفتاح ، أي التماثلات التي لها قراءات مختلفة. تم دمجها جميعًا معًا للحصول على كلمة رئيسية واحدة فقط للبحث عن كل منها ، لأنه لا توجد طريقة لتمييز تلقائيًا والتي تقرأ النتائج. بعد ذلك ، هناك 16484 إدخالات من الذكور المعطاة الأسماء و 77171 للأسماء المعطاة الإناث.
تمت كتابة برنامج نصي بسيط لإلغاء صفحة البحث من yahoo.co.jp والحصول على عدد تقريبي من الزيارات من كل إدخال. إنها ليست مثالية ، ولكنها قد تعطي فكرة عن الأسماء الأكثر شيوعًا. هناك أيضًا بعض الأسماء التي هي أيضًا كلمات شائعة ، مثل 一年 و 一人 ، والتي يجب ترشيحها لاحقًا ، لأن عدد الزيارات قد يأتي في الغالب من الكلمات المشتركة. النتائج هي الملفات التي تحتوي على -count
.
جاء دوران الوكيل من هنا ، لكن لا يبدو أنه يعمل باستمرار ، وربما يكون ذلك بسبب حماية الروبوت من Yahoo.
لا يتم تشفير الملفات من Enamdict باستخدام utf8
، ويجب إعادة ترميزها للعمل مع Python. يمكن القيام به في EMACs عن طريق فتحه ، باستخدام Ma revert-buffer-wth-coding-system > japanese-iso-8bit
لعرض الأحرف بشكل صحيح. ثم Ma set-buffer-file-coding-system utf-8
وحفظ الملف.
تمت كتابة برنامج نصي آخر لوضع علامة على الأسماء الموجودة أيضًا كدخول في Edict2 ، أي الكلمات التي يتم استخدامها أيضًا كأسماء. تم وضع علامة على هذه الكلمات ، لأنه من المحتمل أن تأتي معظم النتائج في البحث على الويب من الكلمة وليس من الاسم. يتم تسمية القائمة المعالجة ، بما في ذلك نتائج العد ، مع -finished
.
بعد الانتهاء من معالجة الإدخالات ، تم تحويل قائمة الأسماء إلى منصة Anki. تشمل الحقول قراءات Kana و Romaji ، كما يتم تضمين نتائج العد لفرز الأسماء بها.
يتم تضمين جميع الإدخالات ، ولكن يمكن توفير قائمة مختصرة حسب الطلب على Github.
حاولت طلب البطاقات المستحقة من خلال انخفاض عدد النتائج ، لكنني لست متأكدًا مما إذا كان سيتم الحفاظ على الجدولة. إذا لم يكن الأمر كذلك ، فمن الضروري تعديل حقل الفرز في "إدارة أنواع الملاحظات" لطلبها حسب العد.
تم نشر الطوابق التي تحتوي على أسماء الذكور على Ankiweb ، ويمكن العثور عليها هنا.