Bibliothèque simple et utilitaire de ligne de commande pour extraire le résumé des pages HTML ou des textes bruts. Le package contient également un cadre d’évaluation simple pour les résumés de texte. Les méthodes de synthèse implémentées sont décrites dans la documentation. Je maintiens également une liste d'implémentations alternatives des résumeurs dans divers langages de programmation.
Il y a de fortes chances que ce soit le cas. Mais sinon, il n’est pas trop difficile de l’ajouter.
Assurez-vous que Python 3.6+ et pip (Windows, Linux) sont installés. Exécutez simplement (méthode préférée) :
$ [sudo] pip install sumy
$ [sudo] pip install git+git://github.com/miso-belica/sumy.git # for the fresh version
Grâce à une bonne âme, le moyen le plus simple d'essayer Sumy est dans votre navigateur à l'adresse https://huggingface.co/spaces/issam9/sumy_space
Sumy contient un utilitaire de ligne de commande pour un résumé rapide des documents.
$ sumy lex-rank --length=10 --url=https://en.wikipedia.org/wiki/Automatic_summarization # what's summarization?
$ sumy lex-rank --language=uk --length=30 --url=https://uk.wikipedia.org/wiki/Україна
$ sumy luhn --language=czech --url=https://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy edmundson --language=czech --length=3% --url=https://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy --help # for more info
Diverses méthodes d'évaluation pour certaines méthodes de récapitulation peuvent être exécutées par les commandes ci-dessous :
$ sumy_eval lex-rank reference_summary.txt --url=https://en.wikipedia.org/wiki/Automatic_summarization
$ sumy_eval lsa reference_summary.txt --language=czech --url=https://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy_eval edmundson reference_summary.txt --language=czech --url=https://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy_eval --help # for more info
Si vous ne voulez pas vous soucier de l'installation, vous pouvez l'essayer en tant que conteneur.
$ docker run --rm misobelica/sumy lex-rank --length=10 --url=https://en.wikipedia.org/wiki/Automatic_summarization
Ou vous pouvez utiliser sumy comme une bibliothèque dans votre projet. Créez le fichier sumy_example.py
(ne le nommez pas sumy.py
) avec le code ci-dessous pour le tester.
# -*- coding: utf-8 -*-
from __future__ import absolute_import
from __future__ import division , print_function , unicode_literals
from sumy . parsers . html import HtmlParser
from sumy . parsers . plaintext import PlaintextParser
from sumy . nlp . tokenizers import Tokenizer
from sumy . summarizers . lsa import LsaSummarizer as Summarizer
from sumy . nlp . stemmers import Stemmer
from sumy . utils import get_stop_words
LANGUAGE = "english"
SENTENCES_COUNT = 10
if __name__ == "__main__" :
url = "https://en.wikipedia.org/wiki/Automatic_summarization"
parser = HtmlParser . from_url ( url , Tokenizer ( LANGUAGE ))
# or for plain text files
# parser = PlaintextParser.from_file("document.txt", Tokenizer(LANGUAGE))
# parser = PlaintextParser.from_string("Check this out.", Tokenizer(LANGUAGE))
stemmer = Stemmer ( LANGUAGE )
summarizer = Summarizer ( stemmer )
summarizer . stop_words = get_stop_words ( LANGUAGE )
for sentence in summarizer ( parser . document , SENTENCES_COUNT ):
print ( sentence )
J'ai trouvé des projets intéressants en naviguant sur Internet ou parfois des gens m'envoyaient un e-mail avec des questions, et j'étais curieux de savoir comment ils utilisaient le sumy :)