sumy
Add Arabic language support
HTML 페이지 또는 일반 텍스트에서 요약을 추출하기 위한 간단한 라이브러리 및 명령줄 유틸리티입니다. 패키지에는 텍스트 요약을 위한 간단한 평가 프레임워크도 포함되어 있습니다. 구현된 요약 방법은 설명서에 설명되어 있습니다. 또한 다양한 프로그래밍 언어로 요약자의 대체 구현 목록을 유지 관리합니다.
그럴 가능성이 높습니다. 하지만 그렇지 않다면 추가하는 것이 그리 어렵지 않습니다.
Python 3.6+ 및 pip(Windows, Linux)가 설치되어 있는지 확인하세요. 간단하게 실행하세요(선호되는 방법):
$ [sudo] pip install sumy
$ [sudo] pip install git+git://github.com/miso-belica/sumy.git # for the fresh version
좋은 분들 덕분에 sumy를 사용해 보는 가장 쉬운 방법은 브라우저(https://huggingface.co/spaces/issam9/sumy_space)에 있는 것입니다.
Sumy에는 문서를 빠르게 요약하기 위한 명령줄 유틸리티가 포함되어 있습니다.
$ sumy lex-rank --length=10 --url=https://en.wikipedia.org/wiki/Automatic_summarization # what's summarization?
$ sumy lex-rank --language=uk --length=30 --url=https://uk.wikipedia.org/wiki/Україна
$ sumy luhn --language=czech --url=https://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy edmundson --language=czech --length=3% --url=https://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy --help # for more info
일부 요약 방법에 대한 다양한 평가 방법은 아래 명령으로 실행할 수 있습니다.
$ sumy_eval lex-rank reference_summary.txt --url=https://en.wikipedia.org/wiki/Automatic_summarization
$ sumy_eval lsa reference_summary.txt --language=czech --url=https://www.zdrojak.cz/clanky/automaticke-zabezpeceni/
$ sumy_eval edmundson reference_summary.txt --language=czech --url=https://cs.wikipedia.org/wiki/Bitva_u_Lipan
$ sumy_eval --help # for more info
설치에 신경쓰고 싶지 않다면 컨테이너로 사용해 볼 수도 있습니다.
$ docker run --rm misobelica/sumy lex-rank --length=10 --url=https://en.wikipedia.org/wiki/Automatic_summarization
또는 프로젝트에서 라이브러리처럼 sumy를 사용할 수 있습니다. 테스트하려면 아래 코드를 사용하여 sumy_example.py
( sumy.py
이름은 지정하지 않음) 파일을 생성하세요.
# -*- coding: utf-8 -*-
from __future__ import absolute_import
from __future__ import division , print_function , unicode_literals
from sumy . parsers . html import HtmlParser
from sumy . parsers . plaintext import PlaintextParser
from sumy . nlp . tokenizers import Tokenizer
from sumy . summarizers . lsa import LsaSummarizer as Summarizer
from sumy . nlp . stemmers import Stemmer
from sumy . utils import get_stop_words
LANGUAGE = "english"
SENTENCES_COUNT = 10
if __name__ == "__main__" :
url = "https://en.wikipedia.org/wiki/Automatic_summarization"
parser = HtmlParser . from_url ( url , Tokenizer ( LANGUAGE ))
# or for plain text files
# parser = PlaintextParser.from_file("document.txt", Tokenizer(LANGUAGE))
# parser = PlaintextParser.from_string("Check this out.", Tokenizer(LANGUAGE))
stemmer = Stemmer ( LANGUAGE )
summarizer = Summarizer ( stemmer )
summarizer . stop_words = get_stop_words ( LANGUAGE )
for sentence in summarizer ( parser . document , SENTENCES_COUNT ):
print ( sentence )
인터넷을 검색하다가 흥미로운 프로젝트를 발견하거나 가끔 질문이 담긴 이메일을 보내오는 사람들이 있는데, 수미를 어떻게 사용하는지 궁금합니다. :)