ดาวน์โหลด better_profanity - ดาวน์โหลดซอร์สโค้ด better

better_profanity

ซอร์สโค้ดอื่น ๆ

v0.7.0

ดาวน์โหลด

ดีกว่า_หยาบคาย

การทำความสะอาดคำสาบานอย่างรวดเร็ว (และคำพูดของพวกเขา) ในสายอักขระ

ขณะนี้มีปัญหาด้านประสิทธิภาพของเวอร์ชันล่าสุด (0.7.0) ขอแนะนำให้ใช้เวอร์ชันเสถียรล่าสุด 0.6.1

ไลบรารีนี้ได้รับแรงบันดาลใจจากคำหยาบคายในแพ็กเกจของ Ben Friedland เร็วกว่าเวอร์ชันดั้งเดิมอย่างเห็นได้ชัด โดยใช้การเปรียบเทียบสตริงแทน regex

รองรับการสะกดคำที่แก้ไขแล้ว (เช่น p0rn , h4NDjob , handj0b และ b*tCh )

ความต้องการ

แพ็คเกจนี้ใช้งานได้กับ Python 3.5+ และ PyPy3

การติดตั้ง

pip3 install better_profanity

อักขระยูนิโค้ด

เพิ่มเฉพาะอักขระ Unicode จากหมวดหมู่ Ll , Lu , Mc และ Mn เท่านั้น ข้อมูลเพิ่มเติมเกี่ยวกับหมวดหมู่ Unicode สามารถพบได้ที่นี่

ยังไม่รองรับทุกภาษา เช่น จีน

การใช้งาน

 from better_profanity import profanity

if __name__ == "__main__" :
    profanity . load_censor_words ()

    text = "You p1ec3 of sHit."
    censored_text = profanity . censor ( text )
    print ( censored_text )
    # You **** of ****.

การสะกดคำที่แก้ไขทั้งหมดใน profanity_wordlist.txt จะถูกสร้างขึ้น ตัวอย่างเช่น คำว่า handjob จะถูกโหลดลงใน:

 'handjob' , 'handj*b' , 'handj0b' , 'handj@b' , 'h@ndjob' , 'h@ndj*b' , 'h@ndj0b' , 'h@ndj@b' ,
'h*ndjob' , 'h*ndj*b' , 'h*ndj0b' , 'h*ndj@b' , 'h4ndjob' , 'h4ndj*b' , 'h4ndj0b' , 'h4ndj@b'

สามารถดูแผนที่ห้องสมุดฉบับสมบูรณ์ได้ใน profanity.py

1. เซ็นเซอร์คำสาบานจากข้อความ

ตามค่าเริ่มต้น profanity จะแทนที่คำสาบานแต่ละคำด้วยเครื่องหมายดอกจัน 4 อัน ****

 from better_profanity import profanity

if __name__ == "__main__" :
    text = "You p1ec3 of sHit."

    censored_text = profanity . censor ( text )
    print ( censored_text )
    # You **** of ****.

2. เซนเซอร์ไม่สนใจเรื่องการแบ่งคำ

ฟังก์ชัน .censor() ยังซ่อนคำที่แยกจากกัน ไม่ใช่แค่พื้นที่ว่างเท่านั้น . ยังรวมถึงตัวแบ่งอื่นๆ ด้วย เช่น _ , , และ - ยกเว้น @, $, *, ", '

 from better_profanity import profanity

if __name__ == "__main__" :
    text = "...sh1t...hello_cat_fuck,,,,123"

    censored_text = profanity . censor ( text )
    print ( censored_text )
    # "...****...hello_cat_****,,,,123"

3. เซ็นเซอร์คำสาบานพร้อมอักขระที่กำหนดเอง

อักขระ 4 ตัวในพารามิเตอร์ตัวที่สองใน .censor() จะถูกใช้เพื่อแทนที่คำสาบาน

 from better_profanity import profanity

if __name__ == "__main__" :
    text = "You p1ec3 of sHit."

    censored_text = profanity . censor ( text , '-' )
    print ( censored_text )
    # You ---- of ----.

4. ตรวจสอบว่าสตริงมีคำหยาบหรือไม่

ฟังก์ชัน .contains_profanity() คืนค่า True หากคำใดๆ ในสตริงที่กำหนดมีคำที่มีอยู่ในรายการคำ

 from better_profanity import profanity

if __name__ == "__main__" :
    dirty_text = "That l3sbi4n did a very good H4ndjob."

    profanity . contains_profanity ( dirty_text )
    # True

5. เซ็นเซอร์คำสาบานด้วยรายการคำที่กำหนดเอง

5.1. รายการคำศัพท์เป็น `List`

ฟังก์ชั่น load_censor_words รับ List สตริงเป็นคำที่ถูกเซ็นเซอร์ รายการที่ให้มาจะแทนที่รายการคำศัพท์เริ่มต้น

 from better_profanity import profanity

if __name__ == "__main__" :
    custom_badwords = [ 'happy' , 'jolly' , 'merry' ]
    profanity . load_censor_words ( custom_badwords )

    print ( profanity . contains_profanity ( "Have a merry day! :)" ))
    # Have a **** day! :)

5.2. รายการคำเป็นไฟล์

ฟังก์ชัน `load_censor_words_from_file ใช้ชื่อไฟล์ซึ่งเป็นไฟล์ข้อความและแต่ละคำจะถูกคั่นด้วยบรรทัด

 from better_profanity import profanity

if __name__ == "__main__" :
    profanity . load_censor_words_from_file ( '/path/to/my/project/my_wordlist.txt' )

6. ไวท์ลิสต์

ฟังก์ชั่น load_censor_words และ load_censor_words_from_file ใช้อาร์กิวเมนต์คำหลัก whitelist_words เพื่อละเว้นคำในรายการคำ

เหมาะที่สุดที่จะใช้เมื่อมีเพียงไม่กี่คำที่คุณต้องการละเว้นในรายการคำ

 # Use the default wordlist
profanity . load_censor_words ( whitelist_words = [ 'happy' , 'merry' ])

# or with your custom words as a List
custom_badwords = [ 'happy' , 'jolly' , 'merry' ]
profanity . load_censor_words ( custom_badwords , whitelist_words = [ 'merry' ])

# or with your custom words as a text file
profanity . load_censor_words_from_file ( '/path/to/my/project/my_wordlist.txt' , whitelist_words = [ 'merry' ])

7. เพิ่มคำเซ็นเซอร์เพิ่มเติม

 from better_profanity import profanity

if __name__ == "__main__" :
    custom_badwords = [ 'happy' , 'jolly' , 'merry' ]
    profanity . add_censor_words ( custom_badwords )

    print ( profanity . contains_profanity ( "Happy you, fuck!" ))
    # **** you, ****!

ข้อจำกัด

เนื่องจากห้องสมุดเปรียบเทียบแต่ละคำด้วยอักขระ การเซ็นเซอร์สามารถข้ามได้อย่างง่ายดายโดยการเพิ่มอักขระใดๆ ลงในคำ:

 profanity . censor ( 'I just have sexx' )
# returns 'I just have sexx'

profanity . censor ( 'jerkk off' )
# returns 'jerkk off'

คำใดๆ ในรายการคำที่มีตัวคั่นที่ไม่ใช่ช่องว่างจะไม่ถูกจดจำ เช่น s & m ดังนั้น คำเหล่านั้นจะไม่ถูกกรองออก ปัญหานี้เกิดขึ้นใน #5

การทดสอบ

python3 tests.py

มีส่วนร่วม

โปรดอ่าน CONTRIBUTING.md เพื่อดูรายละเอียดเกี่ยวกับจรรยาบรรณของเรา และขั้นตอนในการส่งคำขอดึงถึงเรา

ใบอนุญาต

โครงการนี้ได้รับอนุญาตภายใต้ใบอนุญาต MIT - ดูรายละเอียดในไฟล์ LICENSE.md

ขอขอบคุณเป็นพิเศษกับ

Andrew Grinevich - เพิ่มการรองรับอักขระ Unicode
Jaclyn Brockschmidt - ปรับการเปรียบเทียบสตริงให้เหมาะสม

รับทราบ

Ben Friedland - สำหรับแพ็คเกจคำหยาบคายที่สร้างแรงบันดาลใจ

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.7.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-12-22
ขนาด 295.24KB
มาจาก Github

แอปที่เกี่ยวข้อง

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
zotero better notes

2024-11-06
nextcloud_share_url_downloader

2024-11-01
เครื่องมือวิเคราะห์ข้อมูล Lihua เวอร์ชันฟรี 3.0_search_navigation_collection_public comment_ranking_api

2022-06-28

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด

better_profanity