better_profanityダウンロード - better_profanityソースコードのダウンロード

better_profanity

その他のソースコード

v0.7.0

ダウンロード

より良い冒涜

文字列内の罵り言葉 (およびそのリートピーク) を驚くほど高速にクリーニングします

現在、最新バージョン (0.7.0) にはパフォーマンスの問題があります。最新の安定バージョン 0.6.1 を使用することをお勧めします。

Ben Friedland のパッケージの冒涜からインスピレーションを得たこのライブラリは、正規表現の代わりに文字列比較を使用することにより、元のライブラリよりも大幅に高速になっています。

修正されたスペル ( p0rn 、 h4NDjob 、 handj0b 、 b*tChなど) をサポートします。

要件

このパッケージはPython 3.5+以降およびPyPy3で動作します。

インストール

pip3 install better_profanity

Unicode 文字

カテゴリLl 、 Lu 、 McおよびMnの Unicode 文字のみが追加されます。 Unicode カテゴリの詳細については、ここを参照してください。

中国語など、すべての言語がまだサポートされているわけではありません。

使用法

 from better_profanity import profanity

if __name__ == "__main__" :
    profanity . load_censor_words ()

    text = "You p1ec3 of sHit."
    censored_text = profanity . censor ( text )
    print ( censored_text )
    # You **** of ****.

profanity_wordlist.txt 内の単語の修正されたスペルがすべて生成されます。たとえば、単語handjobは次のようにロードされます。

 'handjob' , 'handj*b' , 'handj0b' , 'handj@b' , 'h@ndjob' , 'h@ndj*b' , 'h@ndj0b' , 'h@ndj@b' ,
'h*ndjob' , 'h*ndj*b' , 'h*ndj0b' , 'h*ndj@b' , 'h4ndjob' , 'h4ndj*b' , 'h4ndj0b' , 'h4ndj@b'

ライブラリの完全なマッピングは profanity.py にあります。

1. テキスト内の悪口を検閲する

デフォルトでは、 profanity各罵り言葉を 4 つのアスタリスク****に置き換えます。

 from better_profanity import profanity

if __name__ == "__main__" :
    text = "You p1ec3 of sHit."

    censored_text = profanity . censor ( text )
    print ( censored_text )
    # You **** of ****.

2. 検閲は単語の区切りを気にしない

関数.censor()は、空白だけでなく単語も非表示にします。 _ 、 ,などの他の区切り記号も使用できます. 。 @, $, *, ", 'を除く。

 from better_profanity import profanity

if __name__ == "__main__" :
    text = "...sh1t...hello_cat_fuck,,,,123"

    censored_text = profanity . censor ( text )
    print ( censored_text )
    # "...****...hello_cat_****,,,,123"

3. 外字を使った罵り言葉の検閲

.censor()の 2 番目のパラメータの文字の 4 つのインスタンスは、罵り言葉を置き換えるために使用されます。

 from better_profanity import profanity

if __name__ == "__main__" :
    text = "You p1ec3 of sHit."

    censored_text = profanity . censor ( text , '-' )
    print ( censored_text )
    # You ---- of ----.

4. 文字列に汚い言葉が含まれているかどうかを確認します

関数.contains_profanity()は、指定された文字列内のいずれかの単語に単語リストに存在する単語がある場合にTrueを返します。

 from better_profanity import profanity

if __name__ == "__main__" :
    dirty_text = "That l3sbi4n did a very good H4ndjob."

    profanity . contains_profanity ( dirty_text )
    # True

5. カスタム単語リストを使用して汚い言葉を検閲する

5.1. `List`としての単語リスト

関数load_censor_words文字列のListを検閲済みの単語として受け取ります。提供されたリストはデフォルトの単語リストを置き換えます。

 from better_profanity import profanity

if __name__ == "__main__" :
    custom_badwords = [ 'happy' , 'jolly' , 'merry' ]
    profanity . load_censor_words ( custom_badwords )

    print ( profanity . contains_profanity ( "Have a merry day! :)" ))
    # Have a **** day! :)

5.2.ファイルとしてのワードリスト

関数 `load_ sensor_words_from_file はファイル名を受け取ります。これはテキストファイルであり、各単語は行で区切られています。

 from better_profanity import profanity

if __name__ == "__main__" :
    profanity . load_censor_words_from_file ( '/path/to/my/project/my_wordlist.txt' )

6. ホワイトリスト

関数load_censor_wordsおよびload_censor_words_from_fileキーワード引数whitelist_wordsを受け取り、ワードリスト内の単語を無視します。

単語リスト内に無視したい単語が少数しかない場合に使用するのが最適です。

 # Use the default wordlist
profanity . load_censor_words ( whitelist_words = [ 'happy' , 'merry' ])

# or with your custom words as a List
custom_badwords = [ 'happy' , 'jolly' , 'merry' ]
profanity . load_censor_words ( custom_badwords , whitelist_words = [ 'merry' ])

# or with your custom words as a text file
profanity . load_censor_words_from_file ( '/path/to/my/project/my_wordlist.txt' , whitelist_words = [ 'merry' ])

7. 検閲単語をさらに追加する

 from better_profanity import profanity

if __name__ == "__main__" :
    custom_badwords = [ 'happy' , 'jolly' , 'merry' ]
    profanity . add_censor_words ( custom_badwords )

    print ( profanity . contains_profanity ( "Happy you, fuck!" ))
    # **** you, ****!

制限事項

ライブラリは各単語を文字ごとに比較するため、単語に任意の文字を追加することで簡単に検閲を回避できます。

 profanity . censor ( 'I just have sexx' )
# returns 'I just have sexx'

profanity . censor ( 'jerkk off' )
# returns 'jerkk off'

単語リスト内のスペース以外の区切り文字を含む単語 ( s & mなど) は認識できないため、フィルターで除外されません。この問題は #5 で提起されました。

テスト

python3 tests.py

貢献する

当社の行動規範とプルリクエストを当社に送信するプロセスの詳細については、CONTRIBUTING.md をお読みください。

ライセンス

このプロジェクトは MIT ライセンスに基づいてライセンスされています - 詳細については、LICENSE.md ファイルを参照してください。

特に感謝します

Andrew Grinevich - Unicode 文字のサポートを追加しました。
Jaclyn Brockschmidt - 文字列比較を最適化します。

謝辞

Ben Friedland – 感動的なパッケージの冒涜に対して。

拡大する

追加情報

バージョン v0.7.0
タイプその他のソースコード
更新時間 2024-12-22
サイズ 295.24KB
から Github

better_profanity

より良い冒涜

要件

インストール

Unicode 文字

使用法

1. テキスト内の悪口を検閲する

2. 検閲は単語の区切りを気にしない

3. 外字を使った罵り言葉の検閲

4. 文字列に汚い言葉が含まれているかどうかを確認します

5. カスタム単語リストを使用して汚い言葉を検閲する

5.1. `List`としての単語リスト

5.2.ファイルとしてのワードリスト

6. ホワイトリスト

7. 検閲単語をさらに追加する

制限事項

テスト

貢献する

ライセンス

特に感謝します

謝辞

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

zotero better notes

nextcloud_share_url_downloader

Lihua データ分析エンジン無料版 3.0_検索_ナビゲーション_コレクション_世論_ランキング_api

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind

better_profanity

より良い冒涜

要件

インストール

Unicode 文字

使用法

1. テキスト内の悪口を検閲する

2. 検閲は単語の区切りを気にしない

3. 外字を使った罵り言葉の検閲

4. 文字列に汚い言葉が含まれているかどうかを確認します

5. カスタム単語リストを使用して汚い言葉を検閲する

5.1. Listとしての単語リスト

5.2.ファイルとしてのワードリスト

6. ホワイトリスト

7. 検閲単語をさらに追加する

制限事項

テスト

貢献する

ライセンス

特に感謝します

謝辞

5.1. `List`としての単語リスト