RIP Data dari internet, tidak meninggalkan jejak. Selamat datang di masa depan pengikis web.
Cyberscraper 2077 bukan hanya alat pengikis web lain - ini sekilas ke masa depan ekstraksi data. Terlahir dari jalan-jalan neon-lit di dunia cyberpunk, scraper bertenaga AI ini menggunakan model Openai, Gemini, dan Localllm untuk mengiris pertahanan web, mengekstraksi data yang Anda butuhkan dengan presisi dan gaya yang tak tertandingi.
Apakah Anda seorang analis data Corpo, netrunner jalanan-jalan, atau hanya seseorang yang ingin menarik informasi dari ranah digital, cyberscraper 2077 telah membuat Anda dilindungi.
Lihatlah versi kami yang didesain ulang dan lebih baik dari cyberscraper-2077 dengan lebih banyak fungsionalitas video YouTube untuk penelusuran penuh kemampuan cyberscraper 2077.
Lihat Video YouTube Build (lama) pertama kami
Silakan ikuti panduan wadah Docker yang diberikan di bawah ini, karena saya tidak akan dapat mempertahankan versi lain untuk sistem Windows.
Catatan: Cyberscraper 2077 membutuhkan Python 3.10 atau lebih tinggi.
Klon Repositori ini:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077
Buat dan aktifkan lingkungan virtual:
virtualenv venv
source venv/bin/activate # Optional
Pasang paket yang diperlukan:
pip install -r requirements.txt
Instal Playwright:
playwright install
Setel kunci openai & gemini di lingkungan Anda:
Linux/Mac:
export OPENAI_API_KEY= " your-api-key-here "
export GOOGLE_API_KEY= " your-api-key-here "
Jika Anda ingin menggunakan ollama:
Catatan: Saya hanya merekomendasikan menggunakan OpenAi dan Gemini API karena model ini sangat bagus dalam mengikuti instruksi. Jika Anda menggunakan LLMS open-source, pastikan Anda memiliki sistem yang baik karena kecepatan pembuatan data/presentasi tergantung pada seberapa baik sistem Anda dapat menjalankan LLM. Anda mungkin juga harus menyempurnakan prompt dan menambahkan beberapa filter tambahan sendiri.
1. Setup Ollama using ` pip install ollama `
2. Download Ollama from the official website: https://ollama.com/download
3. Now type: ollama pull llama3.1 or whatever LLM you want to use.
4. Now follow the rest of the steps below.
Jika Anda lebih suka menggunakan Docker, ikuti langkah -langkah ini untuk mengatur dan menjalankan cyberscraper 2077:
Pastikan Anda memiliki Docker yang diinstal pada sistem Anda.
Klon Repositori ini:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077
Bangun gambar Docker:
docker build -t cyberscraper-2077 .
Jalankan wadah:
docker run -p 8501:8501 cyberscraper-2077
docker run -p 8501:8501 -e OPENAI_API_KEY= " your-actual-api-key " cyberscraper-2077
docker run -p 8501:8501 -e GOOGLE_API_KEY= " your-actual-api-key " cyberscraper-2077
Buka browser Anda dan navigasikan ke http://localhost:8501
.
Jika Anda ingin menggunakan ollama dengan pengaturan Docker:
Instal ollama di mesin host Anda mengikuti instruksi di https://ollama.com/download
Jalankan Ollama di mesin host Anda:
ollama pull llama3.1
Temukan alamat IP mesin host Anda:
ifconfig
atau ip addr show
ipconfig
Jalankan wadah Docker dengan jaringan host dan atur URL Ollama:
docker run -e OLLAMA_BASE_URL=http://host.docker.internal:11434 -p 8501:8501 cyberscraper-2077
Di Linux Anda mungkin perlu menggunakan ini di bawah ini:
docker run -e OLLAMA_BASE_URL=http:// < your-host-ip > :11434 -p 8501:8501 cyberscraper-2077
Ganti <your-host-ip>
dengan alamat IP mesin host Anda yang sebenarnya.
Dalam antarmuka streamlit, pilih model Ollama yang ingin Anda gunakan (misalnya, "Ollama: llama3.1").
Catatan: Pastikan firewall Anda memungkinkan koneksi ke port 11434 untuk Ollama.
Aplikasi aplikasi streamlit:
streamlit run main.py
Buka browser Anda dan navigasikan ke http://localhost:8501
.
Masukkan URL situs yang ingin Anda kikis atau ajukan pertanyaan tentang data yang Anda butuhkan.
Tanyakan chatbot untuk mengekstrak data dalam format apa pun. Pilih data apa pun yang ingin Anda ekspor atau bahkan semuanya dari halaman web.
Saksikan saat cyberscraper 2077 menangis melalui internet, mengekstraksi data Anda lebih cepat dari yang dapat Anda katakan "flatline"!
Catatan : Fitur pengikis multi-halaman saat ini dalam beta. Saat fungsional, Anda mungkin mengalami masalah sesekali atau perilaku yang tidak terduga. Kami menghargai umpan balik dan kesabaran Anda saat kami terus meningkatkan fitur ini.
Cyberscraper 2077 sekarang mendukung pengikisan multi-halaman, memungkinkan Anda untuk mengekstrak data dari beberapa halaman situs web dalam sekali jalan. Fitur ini sangat cocok untuk mengikis konten paginated, hasil pencarian, atau situs apa pun dengan data yang tersebar di beberapa halaman.
Saya sarankan Anda memasukkan struktur URL setiap kali jika Anda ingin mengikis banyak halaman sehingga dapat mendeteksi struktur URL dengan mudah. Ini mendeteksi hampir semua jenis URL.
Penggunaan Dasar : Untuk mengikis banyak halaman, gunakan format berikut saat memasuki URL:
https://example.com/page 1-5
https://example.com/p/ 1-6
https://example.com/xample/something-something-1279?p=1 1-3
Ini akan mengikis halaman 1 hingga 5 situs web.
Rentang Halaman Kustom : Anda dapat menentukan rentang halaman khusus:
https://example.com/p/ 1-5,7,9-12
https://example.com/xample/something-something-1279?p=1 1,7,8,9
Ini akan mengikis halaman 1 hingga 5, halaman 7, dan halaman 9 hingga 12.
Pola URL : Untuk situs web dengan struktur URL yang berbeda, Anda dapat menentukan suatu pola:
https://example.com/search?q=cyberpunk&page={page} 1-5
Ganti {page}
dengan di mana nomor halaman harus ada di URL.
Deteksi Pola Otomatis : Jika Anda tidak menentukan suatu pola, cyberscraper 2077 akan berusaha untuk mendeteksi pola URL secara otomatis. Namun, untuk hasil terbaik, menentukan pola yang disarankan.
simulate_human
untuk perilaku pengikis yang lebih alami di situs dengan tindakan anti-bot.robots.txt
situs web dan ketentuan layanan situs web untuk memastikan kepatuhan.URL Example : " https://news.ycombinator.com/?p=1 1-3 or 1,2,3,4 "
Jika Anda ingin mengikis halaman tertentu, cukup masukkan kueri "Silakan kikis halaman nomor 1 atau 2". Jika Anda ingin mengikis semua halaman, cukup berikan kueri seperti "Mengikis semua halaman di CSV" atau format apa pun yang Anda inginkan.
Jika Anda mengalami kesalahan selama pengikisan multi-halaman:
Karena fitur ini dalam beta, kami sangat menghargai umpan balik Anda. Jika Anda menghadapi masalah atau memiliki saran untuk perbaikan, silakan:
Masukan Anda sangat penting dalam membantu kami memperbaiki dan menstabilkan fitur ini untuk rilis di masa mendatang.
Catatan : Fitur pengikis jaringan Tor memungkinkan Anda untuk mengakses dan mengikis situs .onion. Fitur ini membutuhkan pengaturan tambahan dan harus digunakan secara bertanggung jawab dan legal.
Cyberscraper 2077 sekarang mendukung pengikisan situs .oni melalui jaringan Tor, memungkinkan Anda untuk mengakses dan mengekstrak data dari web gelap dengan aman dan anonim. Fitur ini sangat cocok untuk para peneliti, analis keamanan, dan penyelidik yang perlu mengumpulkan informasi dari layanan tersembunyi Tor.
Instal TOR di sistem Anda:
# Ubuntu/Debian
sudo apt install tor
# macOS (using Homebrew)
brew install tor
# Start the Tor service
sudo service tor start # on Linux
brew services start tor # on macOS
Instal Paket Python tambahan:
pip install PySocks requests[socks]
Penggunaan Dasar : Cukup masukkan URL .onion, dan cyberscraper akan secara otomatis mendeteksi dan mengarahkannya melalui jaringan Tor:
http://example123abc.onion
Fitur Keselamatan :
Anda dapat menyesuaikan perilaku mengikis Tor dengan menyesuaikan pengaturan berikut:
tor_config = TorConfig (
socks_port = 9050 , # Default Tor SOCKS port
circuit_timeout = 10 , # Timeout for circuit creation
auto_renew_circuit = True , # Automatically renew Tor circuit
verify_connection = True # Verify Tor connection before scraping
)
Untuk pengguna Docker, tambahkan bendera tambahan ini untuk mengaktifkan dukungan TOR:
docker run -p 8501:8501
--network= " host "
-e OPENAI_API_KEY= " your-api-key "
cyberscraper-2077
Jika Anda mengalami masalah dengan Tor scraping:
sudo service tor status
)netstat -an | grep 9050
)tor --version
)client_secret.json
. Kustomisasi pengaturan PlaywrightScraper
agar sesuai dengan kebutuhan gesekan Anda. Jika beberapa situs web memberi Anda masalah, Anda mungkin ingin memeriksa perilaku situs web:
use_stealth: bool = True,
simulate_human: bool = False,
use_custom_headers: bool = True,
hide_webdriver: bool = True,
bypass_cloudflare: bool = True:
Sesuaikan pengaturan ini berdasarkan situs web target dan lingkungan Anda untuk hasil yang optimal.
Anda juga dapat melewati captcha menggunakan parameter -captcha
di akhir URL. Jendela browser akan muncul, melengkapi captcha, dan kembali ke jendela terminal Anda. Tekan Enter dan bot akan menyelesaikan tugasnya.
Kami menyambut semua cyberpunks, netrunners, dan kode samurais untuk berkontribusi pada cyberscraper 2077!
Berlari ke dalam kesalahan dalam matriks? Beri tahu saya dengan menambahkan masalah ke repo ini sehingga kami dapat memperbaikinya.
T: Apakah cyberscraper 2077 legal untuk digunakan? A: Cyberscraper 2077 dirancang untuk pengikis web etis. Selalu pastikan Anda memiliki hak untuk mengikis situs web dan menghormati file robots.txt mereka.
T: Dapatkah saya menggunakan ini untuk tujuan komersial? A: Ya, di bawah ketentuan lisensi MIT. Tapi ingat, di Night City, selalu ada harga yang harus dibayar. Cuma bercanda!
Proyek ini dilisensikan di bawah lisensi MIT - lihat file lisensi untuk detailnya. Gunakan, mod itu, jual - jangan salahkan kami jika Anda berakhir dengan datar.
Punya pertanyaan? Butuh dukungan? Ingin mempekerjakan saya untuk pertunjukan?
Dengarkan, Choombas! Sebelum Anda masuk ke kode ini, Anda lebih memahami risikonya:
Perangkat lunak ini disediakan "sebagaimana adanya", tanpa jaminan apa pun, tersurat maupun tersirat.
Penulis tidak bertanggung jawab atas kerusakan atau kerugian yang dihasilkan dari penggunaan perangkat lunak ini.
Alat ini dimaksudkan hanya untuk tujuan pendidikan dan penelitian. Penggunaan ilegal apa pun dilarang secara ketat.
Kami tidak menjamin keakuratan, kelengkapan, atau keandalan data apa pun yang diperoleh melalui alat ini.
Dengan menggunakan perangkat lunak ini, Anda mengakui bahwa Anda melakukannya dengan risiko sendiri.
Anda bertanggung jawab untuk mematuhi semua hukum dan peraturan yang berlaku dalam penggunaan perangkat lunak ini.
Kami berhak untuk memodifikasi atau menghentikan perangkat lunak kapan saja tanpa pemberitahuan.
Ingat, Samurai: Di masa depan gelap jaring, pengetahuan adalah kekuatan, tetapi juga pedang bermata dua. Gunakan alat ini dengan bijak, dan semoga koneksi Anda selalu kuat dan firewall Anda tidak bisa ditembus. Tetap beku di luar sana di perbatasan digital.
Cyberscraper 2077 - Karena pada tahun 2077, apa yang membuat seseorang menjadi penjahat? Tertangkap.
Dibangun dengan ❤️ dan Chrome di tepi jalan Night City | © 2077 Owen Singh