La lista de nombres se obtuvo de "Enamdict/JMnedict - archivos de diccionario de nombres propios japoneses", disponibles aquí.
Las entradas que no comienzan con un Kanji fueron eliminadas para excluir los nombres extranjeros. Se realizó simplemente encontrando la primera entrada comenzando con un Kanji y eliminando las entradas anteriores. Dado que los que comienzan con Hiragana o Katakana preceden a los Kanji, también fueron eliminados por la misma operación. La última entrada en el archivo fue una compuesta por Kanji, por lo que no había nada que eliminar del final del archivo. El nombre de archivo resultante se llama filtered
.
Esa lista se dividió en un hombre de péduga masculina y mujer, los demás, apellidos, lugares, etc., fueron ignorados. Ya hay un mazo de Anki de familia disponible en Ankiweb, y por eso no los desecharé.
Para eliminar todas las entradas que no son un nombre (Fe) de pila masculino, las líneas que contienen la regexp fueron ^.*/([^m]{1-8}).*n
reemplazadas por nada. Las entradas que pueden ser de más de una categoría también se eliminaron usando ^.*/(.,.+).*n
La lista de nombres masculinos (mujeres) se llama hombre y mujer. Hay 97008 nombres femeninos y 19025 hombres.
Hay varias entradas con la misma clave, es decir, homógrafos que tienen lecturas diferentes. Todos se fusionaron para tener solo una palabra clave para buscar cada uno de ellos, porque no hay forma de discernir automáticamente qué lectura corresponde a los resultados. Después de eso, hay 16484 entradas de nombres de pila masculinos y 77171 para nombres de pila femeninas.
Se escribió un script simple para desechar la página de búsqueda de yahoo.co.jp y obtener un número aproximado de golpes de cada entrada. No es perfecto, pero puede dar una idea de qué nombres son los más comunes. También hay algunos nombres que también son palabras comunes, como 一年 y 一人, que deben filtrarse más tarde, porque el número de golpes puede provenir principalmente de las palabras comunes. Los resultados son los archivos con un sufijo -count
.
La rotación proxy vino de aquí, pero no parece funcionar de manera consistente, tal vez se deba a la protección del bot de Yahoo.
Los archivos de EnamDict no están codificados con utf8
, y deben volver a ser reencoderados para trabajar con Python. Se puede hacer en emacs abriéndolo, utilizando Ma revert-buffer-wth-coding-system > japanese-iso-8bit
para mostrar los caracteres correctamente. Luego, Ma set-buffer-file-coding-system utf-8
y guarde el archivo.
Otro script fue escrito para etiquetar los nombres que también están presentes como una entrada en las palabras Edict2, es decir, que también se usan como nombres. Esas palabras fueron etiquetadas, porque es probable que la mayoría de los resultados en una búsqueda web provengan de la palabra y no del nombre. La lista procesada, incluidos los resultados del recuento, se nombra con el prefijo -finished
.
Después de finalizar el procesamiento de las entradas, la lista de nombres se transformó en un mazo ANKI. Los campos incluyen las lecturas de Kana y Romaji, y los resultados del recuento también se incluyen para ordenar los nombres.
Se incluyen todas las entradas, pero se puede proporcionar una lista corta mediante solicitud en GitHub.
Traté de ordenar las tarjetas debidas mediante los recuentos de resultados que disminuyen, pero no estoy seguro de si la programación se conservará. Si no, es necesario modificar el campo de clasificación en "Administrar tipos de notas" para ordenarlos por recuento.
Las cubiertas con los nombres masculinos se publicaron en Ankiweb, y se pueden encontrar aquí.