PII Masker는 DeBERTa-v3 기반의 최첨단 AI를 사용하여 민감한 데이터를 보호하는 고급 오픈 소스 도구입니다.
기능 • 설치 • 빠른 시작 • 작동 방식 • 기여
PII Masker는 최첨단 AI 모델을 활용하여 민감한 데이터를 보호하도록 설계된 고급 오픈 소스 도구입니다. DeBERTa-v3를 기반으로 구축된 이 도구는 개인 식별 정보(PII)의 고정밀 감지 및 마스킹을 보장하므로 데이터에 민감한 모든 워크플로우에 완벽하게 적합합니다. 고객 데이터를 처리하든, 데이터 분석을 수행하든, 개인정보 보호 규정을 준수하든 PII Masker는 정보를 안전하게 유지하기 위한 강력하고 확장 가능한 솔루션을 제공합니다.
중요한 정보를 처리할 때는 성능이 좋을 뿐만 아니라 규정 준수를 보장하고 개인정보를 보호하는 도구를 사용하는 것이 중요합니다. PII Masker가 뛰어난 이유는 다음과 같습니다.
git clone https://github.com/yourusername/pii-masker.git
cd pii-masker
pip install -r requirements.txt
# Option 1: Manual download
# Visit: https://huggingface.co/collections/hydroxai/pii-models-674649fea0de7ab99ed11347
# Place files in: pii-masker/output_model/deberta3base_1024/
pii-masker
디렉터리로 변경합니다. cd pii-masker
from model import PIIMasker
# Initialize the PIIMasker
masker = PIIMasker ()
# Mask PII in your text
text = "John Doe lives at 1234 Elm St."
masked_text , pii_dict = masker . mask_pii ( text )
print ( masked_text )
# Output: "[NAME] lives at [ADDRESS]"
PII Masker는 DeBERTa-v3 기반의 정교한 파이프라인을 사용합니다.
PII Masker 프로젝트에 DeBERTa와는 다른 접근 방식을 적용한 새로운 모델을 추가하게 되어 기쁘게 생각합니다. 자세한 내용은 다음과 같습니다.
? 모델 링크:
Hydroxai/pii_model_longtransfomer_version
모델 세부사항:
train_pii_longtransformer.ipynb
? 성능 개선:
이 새로운 모델 구현으로 이전 DeBERTa-v3 모델에 비해 성능이 약 4% 향상되었습니다. Longformer의 확장된 시퀀스 길이(4096개 토큰)와 Bi-LSTM 헤드의 조합은 순차적 컨텍스트 이해를 향상시켜 PII 감지를 더욱 정확하고 안정적으로 만듭니다.
자세한 예시를 확인해보세요:
기여는 오픈 소스 커뮤니티를 배우고, 영감을 주고, 창조할 수 있는 놀라운 장소로 만듭니다. 귀하의 기여 에 크게 감사드립니다 .
git commit -m 'Add some AmazingFeature'
)git push origin feature/AmazingFeature
)특별히 감사드립니다:
개인 정보 보호를 중시하는 개발자 커뮤니티를 위해 ❤️으로 제작됨