Einfache Bibliothek und Befehlszeilendienstprogramm zum Extrahieren von Zusammenfassungen aus HTML-Seiten oder einfachen Texten. Das Paket enthält außerdem ein einfaches Bewertungsframework für Textzusammenfassungen. Implementierte Zusammenfassungsmethoden werden in der Dokumentation beschrieben. Ich führe auch eine Liste alternativer Implementierungen der Zusammenfassungen in verschiedenen Programmiersprachen.
Die Chancen stehen gut, dass es so ist. Aber wenn nicht, ist es nicht allzu schwer, es hinzuzufügen.
Stellen Sie sicher, dass Python 3.6+ und pip (Windows, Linux) installiert sind. Einfach ausführen (bevorzugte Methode):
$ [sudo] pip install sumy
$ [sudo] pip install git+git://github.com/miso-belica/sumy.git # for the fresh version
Dank der guten Seele da draußen können Sie Sumy am einfachsten in Ihrem Browser unter https://huggingface.co/spaces/issam9/sumy_space ausprobieren
Sumy enthält ein Befehlszeilenprogramm zur schnellen Zusammenfassung von Dokumenten.
$ sumy lex-rank --length=10 --url=https://en.wikipedia.org/wiki/Automatic_summarization # what's summarization?
$ sumy lex-rank --language=uk --length=30 --url=https://uk.wikipedia.org/wiki/Україна
$ sumy luhn --language=czech --url=https://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy edmundson --language=czech --length=3% --url=https://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy --help # for more info
Verschiedene Auswertungsmethoden für einige Zusammenfassungsmethoden können mit den folgenden Befehlen ausgeführt werden:
$ sumy_eval lex-rank reference_summary.txt --url=https://en.wikipedia.org/wiki/Automatic_summarization
$ sumy_eval lsa reference_summary.txt --language=czech --url=https://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy_eval edmundson reference_summary.txt --language=czech --url=https://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy_eval --help # for more info
Wenn Sie sich nicht um die Installation kümmern möchten, können Sie es auch als Container versuchen.
$ docker run --rm misobelica/sumy lex-rank --length=10 --url=https://en.wikipedia.org/wiki/Automatic_summarization
Oder Sie können sumy wie eine Bibliothek in Ihrem Projekt verwenden. Erstellen Sie die Datei sumy_example.py
(nennen Sie sie nicht sumy.py
) mit dem folgenden Code, um sie zu testen.
# -*- coding: utf-8 -*-
from __future__ import absolute_import
from __future__ import division , print_function , unicode_literals
from sumy . parsers . html import HtmlParser
from sumy . parsers . plaintext import PlaintextParser
from sumy . nlp . tokenizers import Tokenizer
from sumy . summarizers . lsa import LsaSummarizer as Summarizer
from sumy . nlp . stemmers import Stemmer
from sumy . utils import get_stop_words
LANGUAGE = "english"
SENTENCES_COUNT = 10
if __name__ == "__main__" :
url = "https://en.wikipedia.org/wiki/Automatic_summarization"
parser = HtmlParser . from_url ( url , Tokenizer ( LANGUAGE ))
# or for plain text files
# parser = PlaintextParser.from_file("document.txt", Tokenizer(LANGUAGE))
# parser = PlaintextParser.from_string("Check this out.", Tokenizer(LANGUAGE))
stemmer = Stemmer ( LANGUAGE )
summarizer = Summarizer ( stemmer )
summarizer . stop_words = get_stop_words ( LANGUAGE )
for sentence in summarizer ( parser . document , SENTENCES_COUNT ):
print ( sentence )
Ich habe beim Stöbern im Internet einige interessante Projekte gefunden oder manchmal haben mir Leute eine E-Mail mit Fragen geschrieben und ich war neugierig, wie sie die Summe verwenden :)