名稱列表可從“ Enamdict/jmnedict-日本專有名稱字典文件”獲得。
不以漢字開頭的條目被刪除以排除外國名字。它是通過簡單地找到第一個條目以漢字開始並刪除先前條目來完成的。由於從Hiragana或Katakana開始的漢字之前,他們也被同一操作刪除。文件上的最後一個條目是由漢字組成的,因此從文件末尾沒有任何刪除。所得的文件名稱為filtered
。
該清單被忽略為男性和女性名字,其他,姓氏,地點等。 Ankiweb上已經有一個姓氏Anki甲板,因此我不會廢除它們。
為了刪除所有不是(Fe)男性的條目,給定名稱,包含Regexp的線為^.*/([^m]{1-8}).*n
毫無代替。也可以使用^.*/(.,.+).*n
刪除可以來自多個類別的條目。男性(女性)給定名稱的名單稱為男性和女性。有97008名女性名字和19025個男性。
有幾個帶有相同鍵的條目,即具有不同讀數的同符。它們都合併在一起,只有一個關鍵字可以搜索每個關鍵字,因為沒有辦法自動識別讀取哪些讀取結果的結果。之後,有16484個男性名字的條目,女性的名字為77171。
寫了一個簡單的腳本來從yahoo.co.jp刪除搜索頁面,並從每個條目中獲得大約命中次數。它不是完美的,但是它可能會想到哪些名稱最常見。還有一些名稱也是常用單詞,例如一年和一人,這些名稱以後必須過濾,因為命中次數可能主要來自常用單詞。結果是帶有後綴-count
的文件。
代理輪換來自這裡,但似乎並不始終如一,也許是Yahoo的機器人保護。
來自Enamdict的文件未用utf8
編碼,必須重新編碼以與Python合作。可以通過打開emacs來完成它,使用Ma revert-buffer-wth-coding-system > japanese-iso-8bit
正確顯示字符。然後Ma set-buffer-file-coding-system utf-8
並保存文件。
編寫了另一個腳本來標記名稱,這些名稱也作為edict2中的條目,即也用作名稱的單詞。這些單詞被標記了,因為網絡搜索中的大多數結果可能來自單詞,而不是來自名稱。包括計數結果在內的處理列表以-finished
定為命名。
處理條目後,將名稱列表轉換為ANKI甲板。這些字段包括Kana和Romaji讀數,還包括計數結果以對其進行排序。
所有條目都包括在內,但是可以通過GitHub上的請求提供入圍名單。
我試圖通過減少結果計數來訂購應卡,但我不確定是否會保留時間表。如果不是,則有必要修改“管理音符類型”中的排序字段以按數量訂購。
帶有男性名字的甲板發佈在Ankiweb上,可以在這裡找到。