Pustaka sederhana dan utilitas baris perintah untuk mengekstrak ringkasan dari halaman HTML atau teks biasa. Paket ini juga berisi kerangka evaluasi sederhana untuk ringkasan teks. Metode peringkasan yang diterapkan dijelaskan dalam dokumentasi. Saya juga menyimpan daftar implementasi alternatif dari ringkasan dalam berbagai bahasa pemrograman.
Ada kemungkinan besar hal itu terjadi. Namun jika belum, tidak terlalu sulit untuk menambahkannya.
Pastikan Anda menginstal Python 3.6+ dan pip (Windows, Linux). Jalankan secara sederhana (cara yang disukai):
$ [sudo] pip install sumy
$ [sudo] pip install git+git://github.com/miso-belica/sumy.git # for the fresh version
Terima kasih kepada beberapa orang baik di luar sana, cara termudah untuk mencoba sumy adalah di browser Anda di https://huggingface.co/spaces/issam9/sumy_space
Sumy berisi utilitas baris perintah untuk meringkas dokumen dengan cepat.
$ sumy lex-rank --length=10 --url=https://en.wikipedia.org/wiki/Automatic_summarization # what's summarization?
$ sumy lex-rank --language=uk --length=30 --url=https://uk.wikipedia.org/wiki/Україна
$ sumy luhn --language=czech --url=https://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy edmundson --language=czech --length=3% --url=https://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy --help # for more info
Berbagai metode evaluasi untuk beberapa metode peringkasan dapat dijalankan dengan perintah di bawah ini:
$ sumy_eval lex-rank reference_summary.txt --url=https://en.wikipedia.org/wiki/Automatic_summarization
$ sumy_eval lsa reference_summary.txt --language=czech --url=https://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy_eval edmundson reference_summary.txt --language=czech --url=https://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy_eval --help # for more info
Jika tidak ingin repot dengan instalasinya, Anda bisa mencobanya sebagai wadah.
$ docker run --rm misobelica/sumy lex-rank --length=10 --url=https://en.wikipedia.org/wiki/Automatic_summarization
Atau Anda dapat menggunakan sumy seperti perpustakaan di proyek Anda. Buat file sumy_example.py
(jangan beri nama sumy.py
) dengan kode di bawah ini untuk mengujinya.
# -*- coding: utf-8 -*-
from __future__ import absolute_import
from __future__ import division , print_function , unicode_literals
from sumy . parsers . html import HtmlParser
from sumy . parsers . plaintext import PlaintextParser
from sumy . nlp . tokenizers import Tokenizer
from sumy . summarizers . lsa import LsaSummarizer as Summarizer
from sumy . nlp . stemmers import Stemmer
from sumy . utils import get_stop_words
LANGUAGE = "english"
SENTENCES_COUNT = 10
if __name__ == "__main__" :
url = "https://en.wikipedia.org/wiki/Automatic_summarization"
parser = HtmlParser . from_url ( url , Tokenizer ( LANGUAGE ))
# or for plain text files
# parser = PlaintextParser.from_file("document.txt", Tokenizer(LANGUAGE))
# parser = PlaintextParser.from_string("Check this out.", Tokenizer(LANGUAGE))
stemmer = Stemmer ( LANGUAGE )
summarizer = Summarizer ( stemmer )
summarizer . stop_words = get_stop_words ( LANGUAGE )
for sentence in summarizer ( parser . document , SENTENCES_COUNT ):
print ( sentence )
Saya menemukan beberapa proyek menarik saat menjelajah internet atau terkadang orang mengirimi saya email berisi pertanyaan, dan saya penasaran bagaimana mereka menggunakan sumy tersebut :)