Biblioteca sencilla y utilidad de línea de comandos para extraer resúmenes de páginas HTML o textos sin formato. El paquete también contiene un marco de evaluación simple para resúmenes de texto. Los métodos de resumen implementados se describen en la documentación. También mantengo una lista de implementaciones alternativas de los resumidores en varios lenguajes de programación.
Hay muchas posibilidades de que así sea. Pero si no, no es demasiado difícil agregarlo.
Asegúrese de tener instalado Python 3.6+ y pip (Windows, Linux). Ejecute simplemente (forma preferida):
$ [sudo] pip install sumy
$ [sudo] pip install git+git://github.com/miso-belica/sumy.git # for the fresh version
Gracias a algunas almas buenas, la forma más fácil de probar sumy es en su navegador en https://huggingface.co/spaces/issam9/sumy_space
Sumy contiene una utilidad de línea de comandos para resumir rápidamente documentos.
$ sumy lex-rank --length=10 --url=https://en.wikipedia.org/wiki/Automatic_summarization # what's summarization?
$ sumy lex-rank --language=uk --length=30 --url=https://uk.wikipedia.org/wiki/Україна
$ sumy luhn --language=czech --url=https://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy edmundson --language=czech --length=3% --url=https://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy --help # for more info
Se pueden ejecutar varios métodos de evaluación para algún método de resumen mediante los siguientes comandos:
$ sumy_eval lex-rank reference_summary.txt --url=https://en.wikipedia.org/wiki/Automatic_summarization
$ sumy_eval lsa reference_summary.txt --language=czech --url=https://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy_eval edmundson reference_summary.txt --language=czech --url=https://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy_eval --help # for more info
Si no quiere molestarse con la instalación, puede probarlo como contenedor.
$ docker run --rm misobelica/sumy lex-rank --length=10 --url=https://en.wikipedia.org/wiki/Automatic_summarization
O puedes usar sumy como una biblioteca en tu proyecto. Cree el archivo sumy_example.py
(no lo llame sumy.py
) con el siguiente código para probarlo.
# -*- coding: utf-8 -*-
from __future__ import absolute_import
from __future__ import division , print_function , unicode_literals
from sumy . parsers . html import HtmlParser
from sumy . parsers . plaintext import PlaintextParser
from sumy . nlp . tokenizers import Tokenizer
from sumy . summarizers . lsa import LsaSummarizer as Summarizer
from sumy . nlp . stemmers import Stemmer
from sumy . utils import get_stop_words
LANGUAGE = "english"
SENTENCES_COUNT = 10
if __name__ == "__main__" :
url = "https://en.wikipedia.org/wiki/Automatic_summarization"
parser = HtmlParser . from_url ( url , Tokenizer ( LANGUAGE ))
# or for plain text files
# parser = PlaintextParser.from_file("document.txt", Tokenizer(LANGUAGE))
# parser = PlaintextParser.from_string("Check this out.", Tokenizer(LANGUAGE))
stemmer = Stemmer ( LANGUAGE )
summarizer = Summarizer ( stemmer )
summarizer . stop_words = get_stop_words ( LANGUAGE )
for sentence in summarizer ( parser . document , SENTENCES_COUNT ):
print ( sentence )
Encontré algunos proyectos interesantes mientras navegaba por Internet o, a veces, la gente me escribía un correo electrónico con preguntas y tenía curiosidad sobre cómo usan el sumy :)