Descarga japanese names - Descargar el código fuente japanese names

japanese names

Otro código fuente

1.0.0

Descargar

Frecuencia de nombres japoneses

Fuente

La lista de nombres se obtuvo de "Enamdict/JMnedict - archivos de diccionario de nombres propios japoneses", disponibles aquí.

Las entradas que no comienzan con un Kanji fueron eliminadas para excluir los nombres extranjeros. Se realizó simplemente encontrando la primera entrada comenzando con un Kanji y eliminando las entradas anteriores. Dado que los que comienzan con Hiragana o Katakana preceden a los Kanji, también fueron eliminados por la misma operación. La última entrada en el archivo fue una compuesta por Kanji, por lo que no había nada que eliminar del final del archivo. El nombre de archivo resultante se llama filtered .

Esa lista se dividió en un hombre de péduga masculina y mujer, los demás, apellidos, lugares, etc., fueron ignorados. Ya hay un mazo de Anki de familia disponible en Ankiweb, y por eso no los desecharé.

Para eliminar todas las entradas que no son un nombre (Fe) de pila masculino, las líneas que contienen la regexp fueron ^.*/([^m]{1-8}).*n reemplazadas por nada. Las entradas que pueden ser de más de una categoría también se eliminaron usando ^.*/(.,.+).*n La lista de nombres masculinos (mujeres) se llama hombre y mujer. Hay 97008 nombres femeninos y 19025 hombres.

Hay varias entradas con la misma clave, es decir, homógrafos que tienen lecturas diferentes. Todos se fusionaron para tener solo una palabra clave para buscar cada uno de ellos, porque no hay forma de discernir automáticamente qué lectura corresponde a los resultados. Después de eso, hay 16484 entradas de nombres de pila masculinos y 77171 para nombres de pila femeninas.

Se escribió un script simple para desechar la página de búsqueda de yahoo.co.jp y obtener un número aproximado de golpes de cada entrada. No es perfecto, pero puede dar una idea de qué nombres son los más comunes. También hay algunos nombres que también son palabras comunes, como 一年 y 一人, que deben filtrarse más tarde, porque el número de golpes puede provenir principalmente de las palabras comunes. Los resultados son los archivos con un sufijo -count .

La rotación proxy vino de aquí, pero no parece funcionar de manera consistente, tal vez se deba a la protección del bot de Yahoo.

Los archivos de EnamDict no están codificados con utf8 , y deben volver a ser reencoderados para trabajar con Python. Se puede hacer en emacs abriéndolo, utilizando Ma revert-buffer-wth-coding-system > japanese-iso-8bit para mostrar los caracteres correctamente. Luego, Ma set-buffer-file-coding-system utf-8 y guarde el archivo.

Otro script fue escrito para etiquetar los nombres que también están presentes como una entrada en las palabras Edict2, es decir, que también se usan como nombres. Esas palabras fueron etiquetadas, porque es probable que la mayoría de los resultados en una búsqueda web provengan de la palabra y no del nombre. La lista procesada, incluidos los resultados del recuento, se nombra con el prefijo -finished .

Mazo de Anki

Después de finalizar el procesamiento de las entradas, la lista de nombres se transformó en un mazo ANKI. Los campos incluyen las lecturas de Kana y Romaji, y los resultados del recuento también se incluyen para ordenar los nombres.

Se incluyen todas las entradas, pero se puede proporcionar una lista corta mediante solicitud en GitHub.

Traté de ordenar las tarjetas debidas mediante los recuentos de resultados que disminuyen, pero no estoy seguro de si la programación se conservará. Si no, es necesario modificar el campo de clasificación en "Administrar tipos de notas" para ordenarlos por recuento.

Las cubiertas con los nombres masculinos se publicaron en Ankiweb, y se pueden encontrar aquí.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-02-06
tamaño 15.14MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo