nlp fluency 다운로드 - nlp fluency 소스 코드 다운로드

nlp fluency

AI 소스 코드

1.0.0

다운로드

nlp-유창성

설명하다

자연어 유창성을 평가하는 방법 모음
ngrams , gpt , masked bert 포함하여 kenlm 방법의 유창성을 계산하는 여러 가지 방법은 Su Shen의 블로그를 참조하세요.
환영 스타, 이슈 및 PR

방법	소개하다	모델	사례
엔그램	ngram을 사용하여 다음 단어의 확률 계산[단방향 슬라이딩 윈도우]	Baidu Netdisk: no8i(thucnew 요약 데이터 세트 교육 기반) train_ngramslm.py를 통해 다른 말뭉치와 함께 교육할 수도 있습니다.	사례
gpt	중국어 gpt를 사용하여 다음 단어의 확률 계산 [단방향]	Baidu Netdisk: qmzg 링크에 액세스하여 사전 훈련된 다른 gpt 중국어 모델을 얻거나 직접 훈련할 수도 있습니다.	사례
버트	문장 속 단어를 마스크한 후 마스크 단어의 분포를 예측하고 단어가 나올 확률을 구합니다 [양방향]	Baidu Netdisk: ma3b 링크에 액세스하여 사전 훈련된 다른 BERT 중국어 모델을 얻거나 직접 훈련할 수도 있습니다.	사례
알버트	bert와 동일하지만 모델이 더 작습니다.	Baidu Netdisk: q6pb 링크를 방문하여 사전 훈련된 다른 Albert 중국어 모델을 얻거나 직접 훈련할 수도 있습니다.	사례

용법

torch 와 transformers 설치가 필요하므로 직접 설치하시기 바랍니다. 사용 사례는 example.py에서 찾을 수 있습니다.

기능:

점수: 음수, 클수록 좋음
perplexity: 양수 값, 작을수록 좋음

입력하다:

중국인
문장일 수도 있고 단락일 수도 있습니다.
ngram 방식은 지에바(jieba) 단어 분할 문장의 입력이 필요합니다. 자세한 내용은 아래 사례를 참조하세요.

테스트 말뭉치

 sentences = [
    "中国人的性情是总喜欢调和折中的，譬如你说，这屋子太暗，须在这里开一个窗，大家一定不允许的。但如果你主张拆掉屋顶他们就来调和，愿意开窗了。" ,
    "惟将终夜长开眼，报答平生未展眉" ,
    "我原以为，你身为汉朝老臣，来到阵前，面对两军将士，必有高论。没想到，竟说出如此粗鄙之语！" ,
    "人生当中成功只是一时的，失败却是主旋律，但是如何面对失败，却把人分成不同的样子，有的人会被失败击垮，有的人能够不断的爬起来继续向前，我想真正的成熟，应该不是追求完美，而是直面自己的缺憾，这才是生活的本质，罗曼罗兰说过，这个世界上只有一种真正的英雄主义，那就是认清生活的真相，并且仍然热爱它。难道向上攀爬的那条路不是比站在顶峰更让人热血澎湃吗？" ,
    "我在树上游泳。" ,
    "我在游泳池游泳。" ,
    "我游泳在游泳池。" ,
    "尤是为了,更佳大的,念,念,李是彼,更伟大的多,你只会用这种方法解决问题吗!" ,
]

엔그램

훈련 모델에 대한 자세한 내용은 train_ngramslm.py를 참조하세요.

이 모델은 Tsinghua 추상 데이터 세트를 사용하여 학습되었으며 고대 시와 텍스트의 코퍼스가 부족하기 때문에 일부 비언어적 텍스트의 ppl은 상대적으로 높으며 다른 텍스트는 상대적으로 정확하고 의미론적으로 잘 수행되며 길고 짧은 것에 영향을 받지 않습니다. 문장.

 import jieba
import time
from models import NgramsLanguageModel


start_time = time . time ()

model = NgramsLanguageModel . from_pretrained ( "./thucnews_lm_model" )

print ( f"Loading ngrams model cost { time . time () - start_time :.3f } seconds." )

for s in sentences :
    ppl = model . perplexity (
        x = jieba . lcut ( s ),   # 经过切词的句子或段落
        verbose = False ,     # 是否显示详细的probability，default=False
    )
    print ( f"ppl: { ppl :.5f } # { s } " )

print ( model . perplexity ( jieba . lcut ( sentences [ - 4 ]), verbose = True ))

# Loading ngrams model cost 26.640 seconds.
#
# ppl: 8572.17074 # 中国人的性情是总喜欢调和折中的，譬如你说，这屋子太暗，须在这里开一个窗，大家一定不允许的。但如果你主张拆掉屋顶他们就来调和，愿意开窗了。
# ppl: 660033.44283 # 惟将终夜长开眼，报答平生未展眉
# ppl: 121955.03294 # 我原以为，你身为汉朝老臣，来到阵前，面对两军将士，必有高论。没想到，竟说出如此粗鄙之语！
# ppl: 6831.79220 # 人生当中成功只是一时的，失败却是主旋律，但是如何面对失败，却把人分成不同的样子，有的人会被失败击垮，有的人能够不断的爬起来继续向前，我想真正的成熟，应该不是追求完美，而是直面自己的缺憾，这才是生活的本质，罗曼罗兰说过，这个世界上只有一种真正的英雄主义，那就是认清生活的真相，并且仍然热爱它。难道向上攀爬的那条路不是比站在顶峰更让人热血澎湃吗？
# ppl: 12816.52860 # 我在树上游泳。
# ppl: 7122.96754 # 我在游泳池游泳。
# ppl: 61286.99997 # 我游泳在游泳池。
# ppl: 135742.90546 # 尤是为了,更佳大的,念,念,李是彼,更伟大的多,你只会用这种方法解决问题吗!
#
# ['我', '在'] | 0.00901780
# ['在', '树上'] | 0.00003544
# ['树上', '游泳'] | 0.00000059
# ['游泳', '。'] | 0.00019609
# l score: -13.64571794
# 12816.528602897242

버트

Bert는 일반적으로 ngrams 방법보다 우수하지만 Albert의 속도는 빠르지만 그 효과는 이상적이지 않습니다.

 from models import MaskedBert , MaskedAlbert

model = MaskedAlbert . from_pretrained ( "/home/baojunshan/data/pretrained_models/albert_base_zh" )

# model = MaskedBert.from_pretrained(
#     path="/home/baojunshan/data/pretrained_models/chinese_bert_wwm_ext_pytorch",
#     device="cpu",  # 使用cpu或者cuda:0，default=cpu
#     sentence_length=50,  # 长句做切句处理，段落会被切成最大不超过该变量的句子集，default=50
# )

for s in sentences :
    ppl = model . perplexity (
        x = " " . join ( s ),   # 每个字空格隔开或者输入一个list
        verbose = False ,     # 是否显示详细的probability，default=False
        temperature = 1.0 ,   # softmax的温度调节，default=1
        batch_size = 100 ,    # 推理时的batch size，可根据cpu或gpu而定，default=100
    )
    print ( f"ppl: { ppl :.5f } # { s } " )

model . perplexity ( sentences [ - 4 ], verbose = True )
# model.score(...) # 参数相同

# ppl: 4.20476 # 中国人的性情是总喜欢调和折中的，譬如你说，这屋子太暗，须在这里开一个窗，大家一定不允许的。但如果你主张拆掉屋顶他们就来调和，愿意开窗了。
# ppl: 71.91608 # 惟将终夜长开眼，报答平生未展眉
# ppl: 2.59046 # 我原以为，你身为汉朝老臣，来到阵前，面对两军将士，必有高论。没想到，竟说出如此粗鄙之语！
# ppl: 1.99123 # 人生当中成功只是一时的，失败却是主旋律，但是如何面对失败，却把人分成不同的样子，有的人会被失败击垮，有的人能够不断的爬起来继续向前，我想真正的成熟，应该不是追求完美，而是直面自己的缺憾，这才是生活的本质，罗曼罗兰说过，这个世界上只有一种真正的英雄主义，那就是认清生活的真相，并且仍然热爱它。难道向上攀爬的那条路不是比站在顶峰更让人热血澎湃吗？
# ppl: 10.55426 # 我在树上游泳。
# ppl: 4.38016 # 我在游泳池游泳。
# ppl: 6.56533 # 我游泳在游泳池。
# ppl: 22.52334 # 尤是为了,更佳大的,念,念,李是彼,更伟大的多,你只会用这种方法解决问题吗!
# 我 | 0.00039561
# 在 | 0.96003467
# 树 | 0.00347330
# 上 | 0.42612109
# 游 | 0.95590442
# 泳 | 0.17133135
# 。 | 0.74459237
# l score: -3.39975392

gpt

GPT의 효과는 이상적이지 않습니다. 결과 자체에 관계없이 gpt를 사용하여 유창성을 계산하는 방법에는 다음 단어의 확률을 예측할 때 항상 이전 단어가 올바른 것으로 추정되므로 결과에 영향을 미칩니다. 편차.

 from models import GPT

model = GPT . from_pretrained (
    path = "/home/baojunshan/data/pretrained_models/chinese_gpt2_pytorch" ,
    device = "cpu" ,
    sentence_length = 50
)

for s in sentences :
    ppl = model . perplexity (
        x = " " . join ( s ),   # 每个字空格隔开或者输入一个list
        verbose = False ,     # 是否显示详细的probability，default=False
        temperature = 1.0 ,   # softmax的温度调节，default=1
        batch_size = 100 ,    # 推理时的batch size，可根据cpu或gpu而定，default=100
    )
    print ( f"ppl: { ppl :.5f } # { s } " )

model . perplexity ( sentences [ - 4 ], verbose = True )

ppl : 901.41065 # 中国人的性情是总喜欢调和折中的，譬如你说，这屋子太暗，须在这里开一个窗，大家一定不允许的。但如果你主张拆掉屋顶他们就来调和，愿意开窗了。
ppl : 7773.85606 # 惟将终夜长开眼，报答平生未展眉
ppl : 949.33750 # 我原以为，你身为汉朝老臣，来到阵前，面对两军将士，必有高论。没想到，竟说出如此粗鄙之语！
ppl : 906.79251 # 人生当中成功只是一时的，失败却是主旋律，但是如何面对失败，却把人分成不同的样子，有的人会被失败击垮，有的人能够不断的爬起来继续向前，我想真正的成熟，应该不是追求完美，而是直面自己的缺憾，这才是生活的本质，罗曼罗兰说过，这个世界上只有一种真正的英雄主义，那就是认清生活的真相，并且仍然热爱它。难道向上攀 爬的那条路不是比站在顶峰更让人热血澎湃吗？
ppl : 798.38110 # 我在树上游泳。
ppl : 729.68857 # 我在游泳池游泳。
ppl : 469.11313 # 我游泳在游泳池。
ppl : 927.94576 # 尤是为了,更佳大的,念,念,李是彼,更伟大的多,你只会用这种方法解决问题吗!
我 | 0.00924169
在 | 0.00345525
树 | 0.00000974
上 | 0.22259754
游 | 0.00021145
泳 | 0.00004592
。 | 0.00719284
l score : - 9.64093376

계획

ngrams, gpt, bert 마스크 메소드 구현
gan의 판별자를 사용하여
현재 bert 및 gpt 방법의 구현은 상대적으로 거칠고 느리며 향후 가속화될 예정입니다.
bert 및 gpt의 모델을 직접 학습시킨 후 로드할 수 있지만 저장소에서는 나중에 학습 방법도 제공합니다.
현재의 유창성 감지 방법은 상대적으로 오래되었으며 앞으로 최신 방법을 일부 추가하려고 노력할 것입니다. (논문을 다시 읽어야 합니다.

인용하다

 @misc{nlp-fluency,
  author = {Junshan Bao},
  title = {nlp-fluency},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/baojunshan/nlp-fluency}},
}

확장하다

추가 정보