단순성에 대한 요청에서 영감을 얻었으며 속도에 대해서는 lxml로 구동됩니다.
"신문은 기사를 추출하고 선별하기 위한 놀라운 Python 라이브러리입니다." -- 요청 작성자인 Kenneth Reitz의 트윗
"신문은 Instapaper 스타일의 기사 추출을 제공합니다." -- 변경 내역
신문은 Python3 라이브러리입니다 ! 또는 더 이상 사용되지 않고 버그가 있는 Python2 분기를 확인하세요.
>>> from newspaper import Article
>>> url = ' http://fox13now.com/2013/12/30/new-year-new-laws-obamacare-pot-guns-and-drones/ '
>>> article = Article(url)
>>> article.download()
>>> article.html
'<!DOCTYPE HTML><html itemscope itemtype="http://...'
>>> article.parse()
>>> article.authors
['Leigh Ann Caldwell', 'John Honway']
>>> article.publish_date
datetime.datetime(2013, 12, 30, 0, 0)
>>> article.text
'Washington (CNN) -- Not everyone subscribes to a New Year's resolution...'
>>> article.top_image
'http://someCDN.com/blah/blah/blah/file.png'
>>> article.movies
['http://youtube.com/path/to/link.com', ...]
>>> article.nlp()
>>> article.keywords
['New Years', 'resolution', ...]
>>> article.summary
'The study shows that 93% of people ...'
>>> import newspaper
>>> cnn_paper = newspaper.build( ' http://cnn.com ' )
>>> for article in cnn_paper.articles:
>>> print (article.url)
http://www.cnn.com/2013/11/27/justice/tucson-arizona-captive-girls/
http://www.cnn.com/2013/12/11/us/texas-teen-dwi-wreck/index.html
...
>>> for category in cnn_paper.category_urls():
>>> print (category)
http://lifestyle.cnn.com
http://cnn.com/world
http://tech.cnn.com
...
>>> cnn_article = cnn_paper.articles[ 0 ]
>>> cnn_article.download()
>>> cnn_article.parse()
>>> cnn_article.nlp()
...
>>> from newspaper import fulltext
>>> html = requests.get( ... ).text
>>> text = fulltext(html)
신문은 언어를 원활하게 추출하고 감지할 수 있습니다. 언어가 지정되지 않으면 신문은 언어를 자동 감지하려고 시도합니다.
>>> from newspaper import Article
>>> url = ' http://www.bbc.co.uk/zhongwen/simp/chinese_news/2012/12/121210_hongkong_politics.shtml '
>>> a = Article(url, language = ' zh ' ) # Chinese
>>> a.download()
>>> a.parse()
>>> print (a.text[: 150 ])
香港行政长官梁振英在各方压力下就其大宅的违章建
筑(僭建)问题到立法会接受质询,并向香港民众道歉。
梁振英在星期二(12月10日)的答问大会开始之际
在其演说中道歉,但强调他在违章建筑问题上没有隐瞒的
意图和动机。 一些亲北京阵营议员欢迎梁振英道歉,
且认为应能获得香港民众接受,但这些议员也质问梁振英有
>>> print (a.title)
港特首梁振英就住宅违建事件道歉
전체 뉴스 소스가 하나의 언어로 되어 있다고 확신한다면 동일한 API를 사용하세요 :)
>>> import newspaper
>>> sina_paper = newspaper.build( ' http://www.sina.com.cn/ ' , language = ' zh ' )
>>> for category in sina_paper.category_urls():
>>> print (category)
http://health.sina.com.cn
http://eladies.sina.com.cn
http://english.sina.com
...
>>> article = sina_paper.articles[ 0 ]
>>> article.download()
>>> article.parse()
>>> print (article.text)
新浪武汉汽车综合 随着汽车市场的日趋成熟,
传统的“集全家之力抱得爱车归”的全额购车模式已然过时,
另一种轻松的新兴 车模式――金融购车正逐步成为时下消费者购
买爱车最为时尚的消费理念,他们认为,这种新颖的购车
模式既能在短期内
...
>>> print (article.title)
两年双免0手续0利率 科鲁兹掀背金融轻松购_武汉车市_武汉汽
车网_新浪汽车_新浪网
한 번의 클릭만 하면 됩니다
신문을 활용한 전체적이고 자세한 가이드는 The Docs를 확인하세요.
새로운 언어를 추가하는 데 관심이 있으십니까? 참조: 문서 - 새 언어 추가
>>> import newspaper
>>> newspaper.languages()
Your available languages are:
input code full name
ar Arabic
be Belarusian
bg Bulgarian
da Danish
de German
el Greek
en English
es Spanish
et Estonian
fa Persian
fi Finnish
fr French
he Hebrew
hi Hindi
hr Croatian
hu Hungarian
id Indonesian
it Italian
ja Japanese
ko Korean
lt Lithuanian
mk Macedonian
nb Norwegian (Bokmål)
nl Dutch
no Norwegian
pl Polish
pt Portuguese
ro Romanian
ru Russian
sl Slovenian
sr Serbian
sv Swedish
sw Swahili
th Thai
tr Turkish
uk Ukrainian
vi Vietnamese
zh Chinese
✅ pip3 install newspaper3k
✅ 실행
⛔ pip3 install newspaper
⛔
python3에서는 newspaper
아닌 newspaper3k
설치해야 합니다. newspaper
Python2 라이브러리입니다. pip를 사용하면 신문을 설치하는 것이 간단하지만 우분투에 설치하려고 하면 해결 가능한 문제에 직면하게 됩니다.
Debian / Ubuntu를 사용하는 경우 다음을 사용하여 설치하십시오.
newspaper3k
패키지를 설치하는 데 필요한 pip3
명령을 설치하십시오.
$ sudo apt-get install python3-pip
Python.h에 필요한 Python 개발 버전:
$ sudo apt-get 설치 python-dev
lxml 요구사항:
$ sudo apt-get 설치 libxml2-dev libxslt-dev
PIL이 .jpg 이미지를 인식하려면 다음을 수행하세요.
$ sudo apt-get 설치 libjpeg-dev zlib1g-dev libpng12-dev
참고: libpng12-dev
설치에 문제가 있는 경우 libpng-dev
설치를 시도해 보십시오.
NLP 관련 자료 다운로드:
$ 컬 https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | 파이썬3
pip를 통해 배포판을 설치합니다.
$ pip3 신문3k 설치
OSX를 사용하는 경우 다음을 사용하여 설치하세요. homebrew 또는 macport를 모두 사용할 수 있습니다.
$ 양조 설치 libxml2 libxslt $ 양조 설치 libtiff libjpeg webp little-cms2 $ pip3 신문3k 설치 $ 컬 https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | 파이썬3
그렇지 않으면 다음을 사용하여 설치하십시오.
참고: 패키지 관리자를 통해 다음 라이브러리를 설치해야 할 가능성이 높습니다.
libjpeg-dev
zlib1g-dev
libpng12-dev
libxml2-dev
libxslt-dev
python-dev
$ pip3 신문3k 설치 $ 컬 https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | 파이썬3
여러분의 기부에 진심으로 감사드립니다! 그들은 제가 이 프로젝트에 더 많은 시간을 할애할 수 있도록 해주고, 새로운 기능 추가, 버그 수정 지원, 라이브러리 관련 문제 해결과 같은 일을 맡을 수 있게 해 줄 것입니다.
신문 프로젝트에 기여하고 해킹하려면 이 저장소의 개발 버전을 로컬로 복제하세요.
자식 클론 git://github.com/codelucas/newspaper.git
소스 사본이 있으면 Python 패키지에 포함하거나 사이트 패키지에 쉽게 설치할 수 있습니다.
$ pip3 설치 -r 요구사항.txt $ python3 setup.py 설치
자유롭게 테스트 스위트를 시험해 보세요. 모든 것이 조롱되었습니다!:
$ python3 테스트/unit_tests.py
전체 텍스트 알고리즘을 조정할 계획이신가요? fulltext
매개변수를 추가합니다.
$ python3 테스트/unit_tests.py 전문
여기에서 실제 온라인 데모를 확인하세요: http://newspaper-demo.herokuapp.com
이것은 또 다른 온라인 데모입니다: http://newspaper.chinazt.cc/
Lucas Ou-Yang이 작성하고 관리합니다.
Parse.ly는 특히 자동 추출에 초점을 맞춘 신문 작업을 후원했습니다.
신문에서는 python-goose의 구문 분석 코드를 많이 사용합니다. 여기에서 라이선스를 확인하세요.
문제가 발생하거나 이 라이브러리의 미래와 일반적인 뉴스 추출에 대해 이야기하고 싶다면 언제든지 이메일을 보내거나 저에게 연락하십시오!