이름 목록은 "Enamdict/Jmnedict- 일본의 적절한 이름 사전 파일"에서 얻었습니다.
Kanji로 시작하지 않는 항목은 외국 이름을 제외하기 위해 제거되었습니다. 칸 지로 시작하여 첫 번째 항목을 찾아 이전 항목을 제거하여 수행되었습니다. Hiragana 또는 Katakana로 시작하는 사람들은 Kanji보다 우선하기 때문에 동일한 작업에 의해 제거되었습니다. 파일의 마지막 항목은 Kanji로 구성된 항목이므로 파일 끝에서 제거 할 것이 없었습니다. 결과 파일 이름을 filtered
이라고합니다.
그 목록은 남성과 여성으로 나뉘어졌으며, 다른 이름, 성, 장소 등은 무시되었습니다. Ankiweb에는 이미 가족 이름 Anki 데크가 있으며, 그로 인해 나는 그것들을 긁지 않을 것입니다.
(fe) 남성이 아닌 모든 항목을 제거하기 위해 REGEXP를 포함하는 줄은 ^.*/([^m]{1-8}).*n
아무것도 대체했습니다. ^.*/(.,.+).*n
사용하여 하나 이상의 범주에서 나올 수있는 항목도 제거되었습니다. 주어진 남성 (여성)의 목록을 남성과 여성이라고합니다. 이름이 97008 명의 여성과 19025 년 남성이 있습니다.
동일한 키, 즉 판독 값이 다른 몇 가지 항목이 있습니다. 결과에 해당하는 읽기를 자동으로 식별 할 수있는 방법이 없기 때문에 각각을 검색 할 키워드가 하나뿐입니다. 그 후, 남성 이름의 16484 개의 항목이 있고, 이름이 주어진 이름의 경우 77171이 있습니다.
간단한 스크립트가 yahoo.co.jp에서 검색 페이지를 폐기하고 각 항목에서 대략적인 히트 곡을 얻기 위해 작성되었습니다. 완벽하지는 않지만 어떤 이름이 가장 흔한 지에 대한 아이디어를 줄 수 있습니다. 히트 횟수가 대부분 공통 단어에서 나올 수 있기 때문에 나중에 필터링 해야하는 一年 및 一人와 같은 일반적인 단어 인 일부 이름도 있습니다. 결과는 접미사 -count
있는 파일입니다.
프록시 회전은 여기에서 나왔지만 일관되게 작동하지 않는 것 같습니다. 아마도 야후로부터 봇 보호 일 수도 있습니다.
ENAMDICT의 파일은 utf8
로 인코딩되지 않으며 Python과 함께 작동하려면 다시 코딩해야합니다. EMAC에서는 Ma revert-buffer-wth-coding-system > japanese-iso-8bit
사용하여 캐릭터를 올바르게 표시함으로써 가능합니다. 그런 다음 Ma set-buffer-file-coding-system utf-8
하고 파일을 저장하십시오.
또 다른 스크립트는 이름으로 사용되는 단어 인 Edict2의 항목으로 존재하는 이름을 태그하기 위해 작성되었습니다. 웹 검색의 대부분의 결과가 이름이 아닌 단어에서 나올 가능성이 있기 때문에 그 단어는 태그가 지정되었습니다. 카운트 결과를 포함한 처리 된 목록은 접두사 -finished
로 명명되었습니다.
항목을 처리 한 후 이름 목록은 Anki 데크로 변환되었습니다. 필드에는 카나와 로마 지 판독 값이 모두 포함되어 있으며 카운트 결과는 이름을 정렬하기 위해 포함됩니다.
모든 항목이 포함되어 있지만 GitHub의 요청에 따라 명단을 제공 할 수 있습니다.
결과 수가 줄어드는 마감 카드를 주문하려고했지만 스케줄링이 보존 될지 확실하지 않습니다. 그렇지 않은 경우 "노트 유형 관리"에서 정렬 필드를 수정하여 카운트별로 주문해야합니다.
남성 이름이있는 데크는 Ankiweb에 게시되었으며 여기에서 찾을 수 있습니다.