Daftar nama diperoleh dari "Enamdict/Jmnedict - File Kamus Nama Jepang yang tepat", tersedia di sini.
Entri yang tidak dimulai dengan kanji dihapus untuk mengecualikan nama asing. Itu dilakukan dengan hanya menemukan entri pertama dimulai dengan kanji dan menghapus entri sebelumnya. Karena yang dimulai dengan Hiragana atau Katakana mendahului yang kanji, mereka juga dihilangkan dengan operasi yang sama. Entri terakhir pada file adalah satu yang terdiri dari kanji, jadi tidak ada yang bisa dihapus dari ujung file. Nama file yang dihasilkan disebut filtered
.
Daftar itu dibagi menjadi laki -laki dan perempuan yang diberi nama, yang lain, nama keluarga, tempat, dll., Diabaikan. Sudah ada nama keluarga Anki Deck yang tersedia di Ankiweb, dan karena itu saya tidak akan membatalkannya.
Untuk menghapus semua entri yang bukan nama (Fe) jantan yang diberikan baris yang berisi regexp adalah ^.*/([^m]{1-8}).*n
digantikan oleh Nothing. Entri yang dapat dari lebih dari satu kategori juga dihapus menggunakan ^.*/(.,.+).*n
Daftar nama pria (wanita) yang diberikan disebut pria dan wanita. Ada 97008 wanita yang diberikan nama dan 19025 jantan.
Ada beberapa entri dengan kunci yang sama, yaitu homograf yang memiliki bacaan berbeda. Mereka semua digabungkan bersama untuk hanya memiliki satu kata kunci untuk mencari masing -masing, karena tidak ada cara untuk secara otomatis membedakan mana yang dibaca sesuai hasilnya. Setelah itu, ada 16484 entri nama yang diberikan pria dan 77171 untuk nama perempuan yang diberikan.
Skrip sederhana ditulis untuk membatalkan halaman pencarian dari Yahoo.co.jp dan dapatkan perkiraan jumlah hit dari setiap entri. Itu tidak sempurna, tetapi mungkin memberikan gambaran tentang nama mana yang paling umum. Ada juga beberapa nama yang juga merupakan kata -kata umum, seperti 一年 dan 一人, yang harus disaring nanti, karena jumlah hits mungkin sebagian besar berasal dari kata -kata umum. Hasilnya adalah file dengan sufiks -count
.
Rotasi proxy datang dari sini, tetapi tampaknya tidak bekerja secara konsisten, mungkin itu karena perlindungan bot dari Yahoo.
File -file dari Enamdict tidak dikodekan dengan utf8
, dan mereka harus dikodekan ulang untuk bekerja dengan Python. Ini dapat dilakukan di Emacs dengan membukanya, menggunakan Ma revert-buffer-wth-coding-system > japanese-iso-8bit
untuk menampilkan karakter dengan benar. Kemudian Ma set-buffer-file-coding-system utf-8
dan simpan file.
Skrip lain ditulis untuk menandai nama -nama yang juga hadir sebagai entri di Edict2, yaitu, kata -kata yang juga digunakan sebagai nama. Kata -kata itu ditandai, karena kemungkinan sebagian besar hasil dalam pencarian web berasal dari kata dan bukan dari namanya. Daftar yang diproses, termasuk hasil penghitungan, dinamai dengan awalan -finished
.
Setelah selesai memproses entri, daftar nama diubah menjadi dek Anki. Bidang -bidang tersebut mencakup pembacaan Kana dan Romaji, dan hasil penghitungan juga dimasukkan untuk mengurutkan nama dengan itu.
Semua entri disertakan, tetapi daftar pendek dapat diberikan berdasarkan permintaan di GitHub.
Saya mencoba memesan kartu yang jatuh tempo dengan jumlah hasil menurun, tetapi saya tidak yakin apakah penjadwalan akan dipertahankan. Jika tidak, perlu untuk memodifikasi bidang sortir di "Kelola Jenis Catatan" untuk memesannya dengan menghitung.
Deck dengan nama pria diposting di Ankiweb, dan dapat ditemukan di sini.