Die Namensliste wurde von "EnamDict/Jmnedict - Japanische Eigennamen Dictionary -Dateien" erhalten, die hier verfügbar sind.
Die Einträge, die nicht mit einem Kanji beginnen, wurden entfernt, um fremde Namen auszuschließen. Es wurde durchgeführt, indem einfach der erste Eintrag fand, beginnend mit einem Kanji und der Entfernung der vorherigen Einträge. Da diejenigen, die mit Hiragana oder Katakana beginnen, den Kanji vorausgehen, wurden sie auch durch dieselbe Operation entfernt. Der letzte Eintrag in der Datei bestand aus Kanji, daher gab es nichts zu entfernen vom Ende der Datei. Der resultierende Dateiname wird als filtered
bezeichnet.
Diese Liste wurde in einen Mann aufgeteilt und eine weibliche Namensnamen, die anderen, Nachnamen, Orte usw. wurden ignoriert. Auf Ankiweb gibt es bereits einen Familiennamen Anki Deck, und deshalb werde ich sie nicht verschrotten.
Um alle Einträge zu entfernen, die keine (Fe) männlichen Vornamen sind, waren die Zeilen, die die Regexp enthalten, ^.*/([^m]{1-8}).*n
durch nichts ersetzt. Die Einträge, die aus mehr als einer Kategorie stammen können, wurden ebenfalls mit ^.*/(.,.+).*n
Die Liste der männlichen (weiblichen) vorgegebenen Namen heißt männlich und weiblich. Es gibt 97008 weibliche und männliche und 19025 weibliche Namen.
Es gibt mehrere Einträge mit dem gleichen Schlüssel, dh Homographs mit unterschiedlichen Lesungen. Sie alle wurden zusammengeführt, um nur ein Schlüsselwort für jeden von ihnen zu suchen, da es keine Möglichkeit gibt, automatisch zu erkennen, welche Lesen den Ergebnissen entsprechen. Danach gibt es 16484 Einträge von männlichen Namen und 77171 für weibliche angegebene Namen.
Ein einfaches Skript wurde geschrieben, um die Suchseite von yahoo.co.jp zu verschrotten und eine ungefähre Anzahl von Treffern von jedem Eintrag zu erhalten. Es ist nicht perfekt, aber es kann eine Vorstellung davon geben, welche Namen am häufigsten sind. Es gibt auch einige Namen, die auch gemeinsame Wörter sind, wie 一年 und 一人, die später gefiltert werden müssen, da die Anzahl der Hits hauptsächlich aus den gemeinsamen Wörtern stammt. Die Ergebnisse sind die Dateien mit einem Suffix -count
.
Die Proxy -Rotation kam von hier aus, aber sie scheint nicht konsequent zu funktionieren, vielleicht ist der Bot -Schutz vor Yahoo zurückzuführen.
Die Dateien von EnamDict sind nicht mit utf8
codiert und müssen neu eingestellt werden, um mit Python zu arbeiten. Es kann in EMACs durchgeführt werden, indem Sie es öffnen, wobei Ma revert-buffer-wth-coding-system > japanese-iso-8bit
um die Zeichen korrekt anzuzeigen. Dann Ma set-buffer-file-coding-system utf-8
und speichern Sie die Datei.
Ein weiteres Skript wurde geschrieben, um die Namen zu markieren, die auch als Eintrag in EDICT2, dh Wörtern, die auch als Namen verwendet werden. Diese Wörter wurden markiert, da es wahrscheinlich ist, dass die meisten Ergebnisse in einer Websuche vom Wort und nicht aus dem Namen stammen. Die verarbeitete Liste, einschließlich der Zählergebnisse, wird mit dem Präfix -finished
benannt.
Nach Abschluss der Verarbeitung der Einträge wurde die Liste der Namen in ein Anki -Deck umgewandelt. Die Felder enthalten sowohl die Kana- als auch die Romaji -Lesungen, und die Zählergebnisse sind auch enthalten, um die Namen danach zu sortieren.
Alle Einträge sind enthalten, aber eine Shortlist kann per Anfrage auf GitHub bereitgestellt werden.
Ich habe versucht, die ordnungsgemäßen Karten nach den Ergebniszahlen abzunehmen, aber ich bin mir nicht sicher, ob die Planung erhalten bleibt. Wenn nicht, ist es erforderlich, das Feld Sortier in "Notiztypen verwalten" zu ändern, um sie per Zählung zu bestellen.
Die Decks mit den männlichen Namen wurden auf Ankiweb veröffentlicht und finden Sie hier.