japanese namesダウンロード - japanese namesソースコードダウンロード

japanese names

その他のソースコード

1.0.0

ダウンロード

日本語名頻度

ソース

名前リストは、「enamdict/jmnedict-日本の固有名詞辞書ファイル」から入手しました。ここで入手できます。

漢字から始まらないエントリは、外国名を除外するために削除されました。これは、漢字から始まる最初のエントリを見つけて、以前のエントリを削除するだけで行われました。ヒラガナまたはカタカナから始まるものは漢字の前に先行するので、同じ手術によっても削除されました。ファイルの最後のエントリは漢字で構成されるものだったので、ファイルの端から削除するものは何もありませんでした。結果のファイル名はfilteredと呼ばれます。

そのリストは、男性と女性が与えられた名前、その他、姓、場所などに分割されました。 Ankiwebにはすでに姓Ankiデッキがあり、そのため、私はそれらを廃棄しません。

（Fe）男性ではないすべてのエントリを削除するには、regexpを含む線は^.*/([^m]{1-8}).*n何も置き換えられませんでした。複数のカテゴリからのエントリも^.*/(.,.+).*nを使用して削除されました。指定された名前の男性（女性）のリストは、男性と女性と呼ばれます。 97008人の女性が与えられた名前と19025年の男性がいます。

同じキー、すなわち異なる測定値を持つホモグラフを持ついくつかのエントリがあります。それらはすべて、それぞれを検索するためのキーワードを1つだけ持っているために統合されました。その後、男性の名前の16484エントリ、女性が与えられた名前の77171のエントリがあります。

yahoo.co.jpから検索ページを廃棄し、各エントリから約数のヒットを取得するための簡単なスクリプトが書かれています。それは完璧ではありませんが、どの名前が最も一般的であるかについてのアイデアを与えるかもしれません。また、ヒットの数は主に一般的な単語から来る可能性があるため、後でフィルタリングする必要がある、一年や一人などの一般的な単語であるいくつかの名前もあります。結果は、接尾-countが付いているファイルです。

プロキシの回転はここから来ましたが、一貫して動作するようには見えません。おそらく、Yahooからのボット保護によるものかもしれません。

Enamdictのファイルはutf8でエンコードされておらず、Pythonで動作するために再エンコードする必要があります。 Ma revert-buffer-wth-coding-system > japanese-iso-8bit使用して、文字を正しく表示することで、Emacsを開くことで実行できます。次に、 Ma set-buffer-file-coding-system utf-8保存し、ファイルを保存します。

別のスクリプトが書かれており、edict2、すなわち、名前として使用される単語のエントリとしても存在する名前にタグを付けました。これらの単語にはタグ付けされました。なぜなら、Web検索の結果のほとんどは、名前ではなく単語から来る可能性が高いためです。カウント結果を含む処理されたリストには、プレフィックス-finishedと命名されます。