Descarga nlp fluency - Descarga de código fuente nlp fluency

nlp fluency

Código Fuente de IA

1.0.0

Descargar

fluidez-nlp

ilustrar

Una colección de métodos para evaluar la fluidez del lenguaje natural.
Incluyendo ngrams , gpt , masked bert , varios métodos diferentes para calcular la fluidez para el método kenlm, consulte el blog de Su Shen;
Bienvenidos estrellas, problemas y relaciones públicas

método	introducir	Modelo	Caso
ngramas	Utilice ngram para calcular la probabilidad de la siguiente palabra [ventana deslizante unidireccional]	Baidu Netdisk: no8i (basado en el nuevo entrenamiento del conjunto de datos resumidos, también se puede entrenar con otros corpus a través de train_ngramslm.py);	Caso
gpto	Utilice gpt chino para calcular la probabilidad de la siguiente palabra [unidireccional]	Baidu Netdisk: qmzg; También puede visitar el enlace para obtener otros modelos chinos previamente entrenados con gpt o entrenarse usted mismo.	Caso
berto	Enmascare las palabras en la oración, luego prediga la distribución de las palabras enmascaradas y luego obtenga la probabilidad de la palabra [bidireccional]	Baidu Netdisk: ma3b También puede visitar el enlace para obtener otros modelos chinos previamente entrenados por BERT o entrenarse usted mismo.	Caso
alberto	Igual que bert, pero el modelo es más pequeño.	Baidu Netdisk: q6pb También puede visitar el enlace para obtener otros modelos chinos previamente entrenados por Albert o entrenarse usted mismo;	Caso

uso

Es necesario instalar torch y transformers ; instálelos usted mismo. Los casos de uso se pueden encontrar en ejemplo.py

función:

puntuación: valor negativo, cuanto mayor, mejor
perplejidad: valor positivo, cuanto menor mejor

ingresar:

Chino
Puede ser una oración o un párrafo.
El método ngram requiere la entrada de oraciones de segmentación de palabras jieba. Consulte el caso siguiente para obtener más detalles.

Corpus de prueba

 sentences = [
    "中国人的性情是总喜欢调和折中的，譬如你说，这屋子太暗，须在这里开一个窗，大家一定不允许的。但如果你主张拆掉屋顶他们就来调和，愿意开窗了。" ,
    "惟将终夜长开眼，报答平生未展眉" ,
    "我原以为，你身为汉朝老臣，来到阵前，面对两军将士，必有高论。没想到，竟说出如此粗鄙之语！" ,
    "人生当中成功只是一时的，失败却是主旋律，但是如何面对失败，却把人分成不同的样子，有的人会被失败击垮，有的人能够不断的爬起来继续向前，我想真正的成熟，应该不是追求完美，而是直面自己的缺憾，这才是生活的本质，罗曼罗兰说过，这个世界上只有一种真正的英雄主义，那就是认清生活的真相，并且仍然热爱它。难道向上攀爬的那条路不是比站在顶峰更让人热血澎湃吗？" ,
    "我在树上游泳。" ,
    "我在游泳池游泳。" ,
    "我游泳在游泳池。" ,
    "尤是为了,更佳大的,念,念,李是彼,更伟大的多,你只会用这种方法解决问题吗!" ,
]

ngramas

Para obtener detalles sobre el modelo de entrenamiento, consulte train_ngramslm.py

Dado que este modelo se entrena utilizando el conjunto de datos abstractos de Tsinghua y carece de un corpus de poemas y textos antiguos, el ppl de algunos textos no vernáculos es relativamente alto, otros son relativamente precisos y funcionan bien en semántica, y no se ven afectados por lo largo y lo corto. oraciones.

 import jieba
import time
from models import NgramsLanguageModel


start_time = time . time ()

model = NgramsLanguageModel . from_pretrained ( "./thucnews_lm_model" )

print ( f"Loading ngrams model cost { time . time () - start_time :.3f } seconds." )

for s in sentences :
    ppl = model . perplexity (
        x = jieba . lcut ( s ),   # 经过切词的句子或段落
        verbose = False ,     # 是否显示详细的probability，default=False
    )
    print ( f"ppl: { ppl :.5f } # { s } " )

print ( model . perplexity ( jieba . lcut ( sentences [ - 4 ]), verbose = True ))

# Loading ngrams model cost 26.640 seconds.
#
# ppl: 8572.17074 # 中国人的性情是总喜欢调和折中的，譬如你说，这屋子太暗，须在这里开一个窗，大家一定不允许的。但如果你主张拆掉屋顶他们就来调和，愿意开窗了。
# ppl: 660033.44283 # 惟将终夜长开眼，报答平生未展眉
# ppl: 121955.03294 # 我原以为，你身为汉朝老臣，来到阵前，面对两军将士，必有高论。没想到，竟说出如此粗鄙之语！
# ppl: 6831.79220 # 人生当中成功只是一时的，失败却是主旋律，但是如何面对失败，却把人分成不同的样子，有的人会被失败击垮，有的人能够不断的爬起来继续向前，我想真正的成熟，应该不是追求完美，而是直面自己的缺憾，这才是生活的本质，罗曼罗兰说过，这个世界上只有一种真正的英雄主义，那就是认清生活的真相，并且仍然热爱它。难道向上攀爬的那条路不是比站在顶峰更让人热血澎湃吗？
# ppl: 12816.52860 # 我在树上游泳。
# ppl: 7122.96754 # 我在游泳池游泳。
# ppl: 61286.99997 # 我游泳在游泳池。
# ppl: 135742.90546 # 尤是为了,更佳大的,念,念,李是彼,更伟大的多,你只会用这种方法解决问题吗!
#
# ['我', '在'] | 0.00901780
# ['在', '树上'] | 0.00003544
# ['树上', '游泳'] | 0.00000059
# ['游泳', '。'] | 0.00019609
# l score: -13.64571794
# 12816.528602897242

berto

Bert es generalmente mejor que el método ngrams. Aunque Albert es rápido, el efecto no es ideal.

 from models import MaskedBert , MaskedAlbert

model = MaskedAlbert . from_pretrained ( "/home/baojunshan/data/pretrained_models/albert_base_zh" )

# model = MaskedBert.from_pretrained(
#     path="/home/baojunshan/data/pretrained_models/chinese_bert_wwm_ext_pytorch",
#     device="cpu",  # 使用cpu或者cuda:0，default=cpu
#     sentence_length=50,  # 长句做切句处理，段落会被切成最大不超过该变量的句子集，default=50
# )

for s in sentences :
    ppl = model . perplexity (
        x = " " . join ( s ),   # 每个字空格隔开或者输入一个list
        verbose = False ,     # 是否显示详细的probability，default=False
        temperature = 1.0 ,   # softmax的温度调节，default=1
        batch_size = 100 ,    # 推理时的batch size，可根据cpu或gpu而定，default=100
    )
    print ( f"ppl: { ppl :.5f } # { s } " )

model . perplexity ( sentences [ - 4 ], verbose = True )
# model.score(...) # 参数相同

# ppl: 4.20476 # 中国人的性情是总喜欢调和折中的，譬如你说，这屋子太暗，须在这里开一个窗，大家一定不允许的。但如果你主张拆掉屋顶他们就来调和，愿意开窗了。
# ppl: 71.91608 # 惟将终夜长开眼，报答平生未展眉
# ppl: 2.59046 # 我原以为，你身为汉朝老臣，来到阵前，面对两军将士，必有高论。没想到，竟说出如此粗鄙之语！
# ppl: 1.99123 # 人生当中成功只是一时的，失败却是主旋律，但是如何面对失败，却把人分成不同的样子，有的人会被失败击垮，有的人能够不断的爬起来继续向前，我想真正的成熟，应该不是追求完美，而是直面自己的缺憾，这才是生活的本质，罗曼罗兰说过，这个世界上只有一种真正的英雄主义，那就是认清生活的真相，并且仍然热爱它。难道向上攀爬的那条路不是比站在顶峰更让人热血澎湃吗？
# ppl: 10.55426 # 我在树上游泳。
# ppl: 4.38016 # 我在游泳池游泳。
# ppl: 6.56533 # 我游泳在游泳池。
# ppl: 22.52334 # 尤是为了,更佳大的,念,念,李是彼,更伟大的多,你只会用这种方法解决问题吗!
# 我 | 0.00039561
# 在 | 0.96003467
# 树 | 0.00347330
# 上 | 0.42612109
# 游 | 0.95590442
# 泳 | 0.17133135
# 。 | 0.74459237
# l score: -3.39975392

gpto

El efecto de GPT no es ideal, independientemente del resultado en sí, el método de usar gpt para calcular la fluidez tiene ciertos problemas al predecir la probabilidad de la siguiente palabra, lo que afectará los resultados. desviación.

 from models import GPT

model = GPT . from_pretrained (
    path = "/home/baojunshan/data/pretrained_models/chinese_gpt2_pytorch" ,
    device = "cpu" ,
    sentence_length = 50
)

for s in sentences :
    ppl = model . perplexity (
        x = " " . join ( s ),   # 每个字空格隔开或者输入一个list
        verbose = False ,     # 是否显示详细的probability，default=False
        temperature = 1.0 ,   # softmax的温度调节，default=1
        batch_size = 100 ,    # 推理时的batch size，可根据cpu或gpu而定，default=100
    )
    print ( f"ppl: { ppl :.5f } # { s } " )

model . perplexity ( sentences [ - 4 ], verbose = True )

ppl : 901.41065 # 中国人的性情是总喜欢调和折中的，譬如你说，这屋子太暗，须在这里开一个窗，大家一定不允许的。但如果你主张拆掉屋顶他们就来调和，愿意开窗了。
ppl : 7773.85606 # 惟将终夜长开眼，报答平生未展眉
ppl : 949.33750 # 我原以为，你身为汉朝老臣，来到阵前，面对两军将士，必有高论。没想到，竟说出如此粗鄙之语！
ppl : 906.79251 # 人生当中成功只是一时的，失败却是主旋律，但是如何面对失败，却把人分成不同的样子，有的人会被失败击垮，有的人能够不断的爬起来继续向前，我想真正的成熟，应该不是追求完美，而是直面自己的缺憾，这才是生活的本质，罗曼罗兰说过，这个世界上只有一种真正的英雄主义，那就是认清生活的真相，并且仍然热爱它。难道向上攀 爬的那条路不是比站在顶峰更让人热血澎湃吗？
ppl : 798.38110 # 我在树上游泳。
ppl : 729.68857 # 我在游泳池游泳。
ppl : 469.11313 # 我游泳在游泳池。
ppl : 927.94576 # 尤是为了,更佳大的,念,念,李是彼,更伟大的多,你只会用这种方法解决问题吗!
我 | 0.00924169
在 | 0.00345525
树 | 0.00000974
上 | 0.22259754
游 | 0.00021145
泳 | 0.00004592
。 | 0.00719284
l score : - 9.64093376

plan

Implementar métodos de máscara ngrams, gpt y bert
Usando el discriminador de Gan
En la actualidad, la implementación de los métodos bert y gpt es relativamente tosca y lenta, y se acelerará en el futuro.
Aunque usted mismo puede entrenar los modelos de bert y gpt y luego cargarlos, el repositorio también proporcionará un método de entrenamiento más adelante.
Los métodos actuales de detección de fluidez son relativamente antiguos e intentaremos agregar algunos de los métodos más recientes en el futuro (tengo que leer el artículo nuevamente).

Cita

 @misc{nlp-fluency,
  author = {Junshan Bao},
  title = {nlp-fluency},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/baojunshan/nlp-fluency}},
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-01-07
tamaño 50MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
node telegram bot api

Código Fuente de IA

v0.50.0
typebot.io

Código Fuente de IA

v3.1.2
python wechaty getting started

Código Fuente de IA

1.0.0
waymo open dataset

Otro código fuente

December 2023 Update
wp functions

Otras categorias

1.0.0
termwind

Otras categorias

v2.3.0

Información relacionada Todo