wgit下載 - wgit原始碼下載

wgit

其他源碼

1.0.0

下載

威吉特

內聯構建

Wgit 是一個 HTML 網路爬蟲，用 Ruby 編寫，可讓您以程式設計方式從網路中提取所需的資料。

Wgit 主要設計用於抓取靜態 HTML 網站以索引和搜尋其內容 - 提供任何搜尋引擎的基礎；但 Wgit 適用於許多應用領域，包括：

網址解析
文件內容擷取（資料探勘等）
遞歸網站抓取（索引、統計分析等）

Wgit 提供了高級、易於使用的 API 和 DSL，您可以在自己的應用程式和腳本中使用它們。

看看這個示範搜尋引擎 - 使用 Wgit、Sinatra 和 MongoDB 建置 - 部署到 Fly.io。嘗試搜尋與 Ruby 相關的內容，例如“Matz”或“Rails”。

用法

讓我們抓取一個引用網站，使用 Wgit DSL 提取其引用和作者：

 require 'wgit'
require 'json'

include Wgit :: DSL

start  'http://quotes.toscrape.com/tag/humor/'
follow "//li[@class='next']/a/@href"

extract :quotes ,  "//div[@class='quote']/span[@class='text']" , singleton : false
extract :authors , "//div[@class='quote']/span/small" ,          singleton : false

quotes = [ ]

crawl_site do | doc |
  doc . quotes . zip ( doc . authors ) . each do | arr |
    quotes << {
      quote :  arr . first ,
      author : arr . last
    }
  end
end

puts JSON . generate ( quotes )

哪個輸出：

 [
    {
        "quote": "“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”",
        "author": "Jane Austen"
    },
    {
        "quote": "“A day without sunshine is like, you know, night.”",
        "author": "Steve Martin"
    },
    ...
]

偉大的！但是，如果我們想要抓取內容並將其儲存在資料庫中以便可以搜索，該怎麼辦？ Wgit 可以輕鬆使用 MongoDB 索引和搜尋 HTML（預設）：

 require 'wgit'

include Wgit :: DSL

Wgit . logger . level = Logger :: WARN

ENV [ 'WGIT_CONNECTION_STRING' ] = 'mongodb://user:password@localhost/crawler'

start  'http://quotes.toscrape.com/tag/humor/'
follow "//li[@class='next']/a/@href"

extract :quotes ,  "//div[@class='quote']/span[@class='text']" , singleton : false
extract :authors , "//div[@class='quote']/span/small" ,          singleton : false

index_site
search 'prejudice'

search呼叫（在最後一行）將返回並輸出結果：

 Quotes to Scrape
“I am free of all prejudice. I hate everyone equally. ”
http://quotes.toscrape.com/tag/humor/page/2/

...

使用資料庫客戶端，我們可以看到這兩個網頁已被索引，以及它們提取的引用和作者：

DSL 可以輕鬆編寫用於實驗的腳本。 Wgit 的 DSL 只是底層類別的包裝。為了進行比較，以下是使用 Wgit API而不是DSL 重寫的引用範例：

 require 'wgit'
require 'json'

crawler = Wgit :: Crawler . new
url     = Wgit :: Url . new ( 'http://quotes.toscrape.com/tag/humor/' )
quotes  = [ ]

Wgit :: Document . define_extractor ( :quotes ,  "//div[@class='quote']/span[@class='text']" , singleton : false )
Wgit :: Document . define_extractor ( :authors , "//div[@class='quote']/span/small" ,          singleton : false )

crawler . crawl_site ( url , follow : "//li[@class='next']/a/@href" ) do | doc |
  doc . quotes . zip ( doc . authors ) . each do | arr |
    quotes << {
      quote :  arr . first ,
      author : arr . last
    }
  end
end

puts JSON . generate ( quotes )

為什麼是 Wgit？

還有許多其他 HTML 爬蟲，那麼為什麼要使用 Wgit呢？

Wgit 具有出色的單元測試、100% 的文件覆蓋率並遵循語義版本控制規則。
Wgit 擅長立即抓取整個網站的 HTML。許多替代爬網程式要求您提供跟隨下一個要爬網的 URL 所需的xpath 。預設情況下，Wgit 透過提取指向相同主機的內部連結來爬網整個網站 - 不需要xpath 。
Wgit 可讓您定義將在每次後續擷取時觸發的內容擷取器；無論是單一 URL 還是整個網站。這使您能夠專注於您想要的內容。
Wgit 可以將 HTML 索引（抓取並儲存）到資料庫，從而輕鬆建立自訂搜尋引擎。您還可以指定搜尋哪些頁面內容，使搜尋更有意義。例如，以下是一個將為 Wgit wiki 文章建立索引的腳本：

 require 'wgit'

ENV [ 'WGIT_CONNECTION_STRING' ] = 'mongodb://user:password@localhost/crawler'

wiki = Wgit :: Url . new ( 'https://github.com/michaeltelford/wgit/wiki' )

# Only index the most recent of each wiki article, ignoring the rest of Github.
opts = {
  allow_paths :    'michaeltelford/wgit/wiki/*' ,
  disallow_paths : 'michaeltelford/wgit/wiki/*/_history'
}

indexer = Wgit :: Indexer . new
indexer . index_site ( wiki , ** opts )

Wgit 透過使用「適配器」類別來支援不同的資料庫，您可以編寫這些類別來支援您自己選擇的資料庫。
預設情況下，Wgit 的內建索引方法將遵循網站的robots.txt規則。還有一個方便的robots.txt解析器，您可以在自己的程式碼中使用它。

為什麼不是 Wgit？

那我聽到你問為什麼你不使用 Wgit 呢？

Wgit 不允許網頁交互，例如以使用者身分登入。有更好的寶石可以做到這一點。
Wgit 可以解析爬網頁面的 Javascript，但預設不這樣做。如果您的爬網需要大量 JS，那麼您最好考慮使用純粹的基於瀏覽器的爬蟲。
Wgit 雖然速度很快（使用libcurl進行 HTTP 等），但不是多執行緒的；所以每個 URL 都會被順序抓取。您可以將每個已爬網的文件交給工作線程進行處理 - 但如果您需要並發爬網，那麼您應該考慮其他方法。

安裝

僅 MRI Ruby 經過測試和支持，但 Wgit 可以與其他 Ruby 實作一起使用。

目前，支援的 MRI Ruby 版本範圍是：

ruby '~> 3.0'又稱 Ruby 3.0 和最高版本（但不包括 Ruby 4.0）。 Wgit 可能會在舊版本上正常工作，但如果可能的話最好升級。

使用捆綁器

 $ bundle add wgit

使用 RubyGems

 $ gem install wgit

核實

 $ wgit

呼叫已安裝的可執行檔將啟動 REPL 會話。

文件

入門
維基百科
API 文件
變更日誌

執行檔

安裝 Wgit gem 會將wgit執行檔加入到您的$PATH中。可執行檔啟動一個互動式 REPL 會話，並且已經載入了 Wgit gem；使得從命令列進行索引和搜尋變得非常容易，無需腳本。

wgit可執行檔執行以下操作（依序）：

require wgit
載入.env文件（如果本地目錄或主目錄中存在該文件，以先找到者為準）
eval 'sa .wgit.rb文件（如果本地目錄或主目錄中存在該文件，以先找到者為準）
啟動互動式 shell（如果已安裝則使用pry ，如果未安裝則使用irb ）

.wgit.rb檔案可用於播種夾具資料或定義會話的輔助函數。例如，您可以定義一個函數來索引您的網站，以便每次啟動wgit時快速輕鬆地進行搜尋。

執照

該 gem 根據 MIT 授權條款作為開源提供。有關詳細信息，請參閱 LICENSE.txt。

貢獻

GitHub 歡迎提交錯誤報告和功能請求。只需提出一個問題，檢查它是否已經存在。

目前的路線圖基本上列在路線圖 wiki 頁面中。也許您的功能請求已經存在？

在考慮做出貢獻之前，請查看 CONTRIBUTING.md。

發展

檢查儲存庫後，執行以下命令：

gem install bundler toys
bundle install --jobs=3
toys setup

你就可以出發了！

工裝

Wgit 使用toys gem（而非Rake）進行任務呼叫。始終將toys作為bundle exec toys運行。有關可用任務（又稱工具）的完整列表，請執行bundle exec toys --tools 。您可以使用bundle exec toys -s tool_name搜尋工具。下面列出了最常用的工具...

執行bundle exec toys db以查看資料庫相關工具的列表，使您能夠使用 Docker 在本機上執行 Mongo DB 實例。運行bundle exec toys test來執行測試。

若要在本機產生程式碼文檔，請執行bundle exec toys yardoc 。若要在瀏覽器中瀏覽文檔，請執行bundle exec toys yardoc --serve 。您也可以使用yri命令列工具，例如yri Wgit::Crawler#crawl_site等。

若要將此 gem 安裝到本機上，請執行bundle exec toys install並按照提示進行操作。

安慰

您可以使用./bin/wgit執行檔為互動式 shell 執行bundle exec toys console 。 bundle exec toys setup任務將建立一個由可執行檔載入的.env和.wgit.rb檔。您可以使用此要點的內容將可執行檔轉換為開發控制台。它定義了一些有用的WGIT_CONNECTION_STRING 、裝置並連接到.env庫等。

展開

附加信息