La liste des noms a été obtenue à partir de "Enamdict / Jmnedict - Japonais Noms propres DICTIONNAIRES Fichiers", disponibles ici.
Les entrées qui ne commencent pas par un Kanji ont été supprimées pour exclure les noms étrangers. Cela a été fait en trouvant simplement la première entrée en commençant par un Kanji et en supprimant les entrées précédentes. Étant donné que ceux qui commencent par Hiragana ou Katakana précèdent ceux de Kanji, ils ont également été supprimés par la même opération. La dernière entrée du fichier était celle composée de Kanji, il n'y avait donc rien à supprimer de la fin du fichier. Le nom de fichier résultant est appelé filtered
.
Cette liste a été divisée en un homme et une femme donnés, les autres, les noms de famille, les lieux, etc., ont été ignorés. Il y a déjà un nom de famille Anki Deck disponible sur Ankiweb, et à cause de cela, je ne les éliminerai pas.
Pour supprimer toutes les entrées qui ne sont pas un (fe) mâle donné, les lignes contenant le regexp étaient ^.*/([^m]{1-8}).*n
remplacées par rien. Les entrées qui peuvent provenir de plusieurs catégories ont également été supprimées en utilisant ^.*/(.,.+).*n
La liste des noms masculins (femelles) est appelée mâle et femme. Il y a 97008 noms de femmes et 19025 masculins.
Il y a plusieurs entrées avec la même clé, c'est-à-dire des homographies qui ont des lectures différentes. Ils ont tous été fusionnés ensemble pour n'avoir qu'un seul mot-clé pour rechercher chacun d'eux, car il n'y a aucun moyen de discerner automatiquement qui lis correspond aux résultats. Après cela, il y a 16484 entrées de noms de hommes donnés et 77171 pour les noms de femmes.
Un script simple a été écrit pour éliminer la page de recherche de yahoo.co.jp et obtenir un nombre approximatif de coups de chaque entrée. Ce n'est pas parfait, mais cela peut donner une idée des noms les plus courants. Il y a aussi quelques noms qui sont également des mots courants, comme 一年 et 一人, qui doivent être filtrés plus tard, car le nombre de coups peut provenir principalement des mots communs. Les résultats sont les fichiers avec un Suffix -count
.
La rotation de la procuration est venue d'ici, mais elle ne semble pas fonctionner de manière cohérente, peut-être que la protection des bots contre Yahoo.
Les fichiers d'Enamdict ne sont pas codés avec utf8
, et ils doivent être réencolés pour travailler avec Python. Cela peut être fait dans EMACS en l'ouvrant, en utilisant Ma revert-buffer-wth-coding-system > japanese-iso-8bit
pour afficher correctement les caractères. Ensuite, Ma set-buffer-file-coding-system utf-8
et enregistrez le fichier.
Un autre script a été écrit pour marquer les noms qui sont également présents comme une entrée dans EDIDG2, c'est-à-dire, des mots qui sont également utilisés comme noms. Ces mots ont été marqués, car il est probable que la plupart des résultats dans une recherche Web proviennent du mot et non du nom. La liste traitée, y compris les résultats du nombre, est nommée avec la préfixe -finished
.
Après avoir terminé les entrées, la liste des noms a été transformée en un deck Anki. Les champs incluent les lectures de Kana et Romaji, et les résultats du nombre sont également inclus pour trier les noms par celui-ci.
Toutes les entrées sont incluses, mais une liste restreinte peut être fournie par demande sur GitHub.
J'ai essayé de commander les cartes d'échéance par la diminution des dénombrements de résultats, mais je ne sais pas si la planification sera conservée. Sinon, il est nécessaire de modifier le champ de tri dans "Gérer les types de notes" pour les commander par comptage.
Les decks avec les noms masculins ont été publiés sur Ankiweb, et il peut être trouvé ici.