A lista de nomes foi obtida de "Enamdict/Jmnedict - nomes próprios japoneses Arquivos de dicionário", disponíveis aqui.
As entradas que não começam com um kanji foram removidas para excluir nomes estrangeiros. Foi feito simplesmente encontrando a primeira entrada começando com um kanji e removendo as entradas anteriores. Como os que começam com Hiragana ou Katakana precedem os kanji, eles também foram removidos pela mesma operação. A última entrada no arquivo foi composta por kanji, então não havia nada a remover do final do arquivo. O nome do arquivo resultante é chamado filtered
.
Essa lista foi dividida em um homem e uma mulher recebendo nomes, os outros, sobrenomes, lugares etc. foram ignorados. Já existe um nome de família Anki Deck disponível no Ankiweb e, por isso, não vou descartá -los.
Para remover todas as entradas que não são um nome (Fe), dado o nome, as linhas que contêm o regexp foram ^.*/([^m]{1-8}).*n
substituído por nada. As entradas que podem ser de mais de uma categoria também foram removidas usando ^.*/(.,.+).*n
A lista de nomes masculinos (femininos) é chamado de homem e mulher. Existem 97008 nomes femininos e 19025 masculinos.
Existem várias entradas com a mesma chave, ou seja, homógrafos que têm leituras diferentes. Todos eles foram mesclados por ter apenas uma palavra -chave para pesquisar cada um deles, porque não há como discernir automaticamente que lidas correspondam aos resultados. Depois disso, há 16484 entradas de nomes masculinos e 77171 para nomes femininos.
Um script simples foi gravado para descartar a página de pesquisa do yahoo.co.jp e obter um número aproximado de acertos de cada entrada. Não é perfeito, mas pode dar uma idéia de quais nomes são os mais comuns. Existem também alguns nomes que também são palavras comuns, como 一年 e 一人, que precisam ser filtrados posteriormente, porque o número de acertos pode vir principalmente das palavras comuns. Os resultados são os arquivos com uma -count
de sufixo.
A rotação proxy veio daqui, mas não parece funcionar de forma consistente, talvez seja devido à proteção do Bot do Yahoo.
Os arquivos do Enamdict não são codificados com utf8
e precisam ser reencodificados para trabalhar com o Python. Isso pode ser feito no EMACS, abrindo-o, usando Ma revert-buffer-wth-coding-system > japanese-iso-8bit
para exibir os caracteres corretamente. Em seguida, Ma set-buffer-file-coding-system utf-8
e salve o arquivo.
Outro script foi escrito para marcar os nomes que também estão presentes como uma entrada no Editt2, ou seja, palavras que também são usadas como nomes. Essas palavras foram marcadas, porque é provável que a maioria dos resultados em uma pesquisa na web venha da palavra e não do nome. A lista processada, incluindo os resultados da contagem, é nomeada com o prefixo -finished
.
Após o acabamento do processamento das entradas, a lista de nomes foi transformada em um baralho Anki. Os campos incluem as leituras Kana e Romaji, e os resultados da contagem também são incluídos para classificar os nomes por ele.
Todas as entradas estão incluídas, mas uma lista restrita pode ser fornecida mediante solicitação no GitHub.
Tentei encomendar os cartões de vencimento pelas contagens de resultados diminuindo, mas não tenho certeza se o agendamento será preservado. Caso contrário, é necessário modificar o campo de classificação em "Gerenciar tipos de anotações" para solicitá -los por contagem.
Os decks com os nomes masculinos foram publicados no Ankiweb, e pode ser encontrado aqui.