RIP بيانات من الشبكة ، ولم يترك أي أثر. مرحبًا بك في مستقبل تجريف الويب.
CybersCroper 2077 ليس مجرد أداة تجشيد ويب أخرى - إنها لمحة عن مستقبل استخراج البيانات. ولدت من شوارع عالم Cyberpunk المليء بالنيون ، يستخدم هذا المكشطة التي تعمل من الذكاء الاصطناعى نماذج Openai و Gemini و Localllm لتقطيع دفاعات الويب ، واستخراج البيانات التي تحتاجها بدقة وأسلوب لا مثيل لها.
سواء كنت محلل بيانات كورو أو NetRunner في الشوارع ، أو مجرد شخص يتطلع إلى سحب المعلومات من العالم الرقمي ، فقد تم تغطية CybersCraper 2077.
تحقق من نسختنا المعاد تصميمها والمحسّنة من CybersCraper-2077 مع مزيد من وظائف فيديو YouTube للحصول على تجول كامل في إمكانات CybersCraper 2077.
تحقق من أول فيديو بناء (فيديو قديم) على YouTube
يرجى اتباع دليل حاوية Docker الوارد أدناه ، حيث لن أتمكن من الحفاظ على إصدار آخر لأنظمة Windows.
ملاحظة: يتطلب CybersCroper 2077 Python 3.10 أو أعلى.
استنساخ هذا المستودع:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077
إنشاء وتفعيل بيئة افتراضية:
virtualenv venv
source venv/bin/activate # Optional
تثبيت الحزم المطلوبة:
pip install -r requirements.txt
تثبيت الكاتب المسرحي:
playwright install
قم بتعيين مفتاح Openai و Gemini في بيئتك:
Linux/Mac:
export OPENAI_API_KEY= " your-api-key-here "
export GOOGLE_API_KEY= " your-api-key-here "
إذا كنت تريد استخدام Ollama:
ملاحظة: أوصي فقط باستخدام Openai و Gemini API لأن هذه النماذج جيدة حقًا في الإرشادات التالية. إذا كنت تستخدم LLMs مفتوحة المصدر ، فتأكد من أن لديك نظامًا جيدًا لأن سرعة توليد البيانات/العرض التقديمي تعتمد على مدى جودة تشغيل نظامك LLM. قد تضطر أيضًا إلى ضبط المطالبة وإضافة بعض المرشحات الإضافية بنفسك.
1. Setup Ollama using ` pip install ollama `
2. Download Ollama from the official website: https://ollama.com/download
3. Now type: ollama pull llama3.1 or whatever LLM you want to use.
4. Now follow the rest of the steps below.
إذا كنت تفضل استخدام Docker ، فاتبع هذه الخطوات لإعداد وتشغيل CybersCroper 2077:
تأكد من تثبيت Docker على نظامك.
استنساخ هذا المستودع:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077
بناء صورة Docker:
docker build -t cyberscraper-2077 .
قم بتشغيل الحاوية:
docker run -p 8501:8501 cyberscraper-2077
docker run -p 8501:8501 -e OPENAI_API_KEY= " your-actual-api-key " cyberscraper-2077
docker run -p 8501:8501 -e GOOGLE_API_KEY= " your-actual-api-key " cyberscraper-2077
افتح متصفحك وانتقل إلى http://localhost:8501
.
إذا كنت ترغب في استخدام Ollama مع إعداد Docker:
قم بتثبيت Ollama على جهاز المضيف الخاص بك باتباع الإرشادات الموجودة على https://ollama.com/download
قم بتشغيل Ollama على جهاز المضيف الخاص بك:
ollama pull llama3.1
ابحث عن عنوان IP الخاص بجهاز المضيف الخاص بك:
ifconfig
أو ip addr show
ipconfig
قم بتشغيل حاوية Docker مع الشبكة المضيفة وقم بتعيين Ullama URL:
docker run -e OLLAMA_BASE_URL=http://host.docker.internal:11434 -p 8501:8501 cyberscraper-2077
على Linux قد تحتاج إلى استخدام هذا أدناه:
docker run -e OLLAMA_BASE_URL=http:// < your-host-ip > :11434 -p 8501:8501 cyberscraper-2077
استبدل <your-host-ip>
بعنوان IP للمضيف الفعلي الخاص بك.
في الواجهة البطيئة ، حدد نموذج Ollama الذي تريد استخدامه (على سبيل المثال ، "Ollama: Llama3.1").
ملاحظة: تأكد من أن جدار الحماية الخاص بك يسمح بالاتصالات بالمنفذ 11434 لـ Ollama.
اطلاق النار على تطبيق STIPLELIT:
streamlit run main.py
افتح متصفحك وانتقل إلى http://localhost:8501
.
أدخل عنوان URL للموقع الذي تريد كشافة أو طرح سؤال حول البيانات التي تحتاجها.
اطلب من chatbot استخراج البيانات بأي شكل. حدد أي بيانات تريد تصديرها أو حتى كل شيء من صفحة الويب.
شاهد دموع CybersCroper 2077 عبر الشبكة ، واستخراج بياناتك بشكل أسرع مما يمكنك قول "Flatline"!
ملاحظة : ميزة التجريف متعددة الصفحات موجودة حاليًا في الإصدار التجريبي. على الرغم من وظيفية ، قد تواجه مشكلات عرضية أو سلوك غير متوقع. نحن نقدر ملاحظاتك وصبرك ونحن نستمر في تحسين هذه الميزة.
يدعم CybersCroper 2077 الآن تجريفًا متعدد الصفحات ، مما يتيح لك استخراج البيانات من صفحات متعددة من موقع ويب دفعة واحدة. تعتبر هذه الميزة مثالية لتجنب المحتوى المصقول أو نتائج البحث أو أي موقع مع بيانات منتشرة عبر صفحات متعددة.
أقترح عليك إدخال بنية عنوان URL في كل مرة إذا كنت تريد كشافة صفحات متعددة حتى تتمكن من اكتشاف بنية عنوان URL بسهولة. يكتشف تقريبا جميع أنواع عناوين URL.
الاستخدام الأساسي : لكشط صفحات متعددة ، استخدم التنسيق التالي عند إدخال عنوان URL:
https://example.com/page 1-5
https://example.com/p/ 1-6
https://example.com/xample/something-something-1279?p=1 1-3
سيؤدي هذا إلى كشط الصفحات من 1 إلى 5 من الموقع.
نطاقات الصفحة المخصصة : يمكنك تحديد نطاقات الصفحة المخصصة:
https://example.com/p/ 1-5,7,9-12
https://example.com/xample/something-something-1279?p=1 1,7,8,9
سيؤدي ذلك إلى كشط الصفحات من 1 إلى 5 ، صفحة 7 ، والصفحات من 9 إلى 12.
أنماط عنوان URL : بالنسبة لمواقع الويب التي لها هياكل عناوين URL مختلفة ، يمكنك تحديد نمط:
https://example.com/search?q=cyberpunk&page={page} 1-5
استبدل {page}
بالمكان الذي يجب أن يكون فيه رقم الصفحة في عنوان URL.
اكتشاف الأنماط التلقائية : إذا لم تحدد نمطًا ، فسيحاول CybersCroper 2077 اكتشاف نمط عنوان URL تلقائيًا. ومع ذلك ، للحصول على أفضل النتائج ، يوصى بتحديد النمط.
simulate_human
لمزيد من سلوك الكشط الطبيعي على المواقع ذات التدابير المضادة للبوت.robots.txt
الخاص بالموقع وشروط الخدمة لضمان الامتثال.URL Example : " https://news.ycombinator.com/?p=1 1-3 or 1,2,3,4 "
إذا كنت ترغب في كشافة صفحة معينة ، فما عليك سوى إدخال الاستعلام "الرجاء كشط الصفحة رقم 1 أو 2". إذا كنت ترغب في كشافة جميع الصفحات ، فما عليك سوى إعطاء استعلام مثل "كشط جميع الصفحات في CSV" أو أي تنسيق تريده.
إذا واجهت أخطاء أثناء الكشط متعدد الصفحات:
نظرًا لأن هذه الميزة في الإصدار التجريبي ، فإننا نقدر ملاحظاتك بشدة. إذا واجهت أي مشاكل أو لديك اقتراحات للتحسين ، من فضلك:
تعد مدخلاتك أمرًا بالغ الأهمية في مساعدتنا على تحسين هذه الميزة وتثبيتها للإصدارات المستقبلية.
ملاحظة : تتيح لك ميزة تجريف شبكة TOR الوصول إلى مواقع. تتطلب هذه الميزة إعدادًا إضافيًا ويجب استخدامه بمسؤولية وقوة.
يدعم CybersCroper 2077 الآن Draging .Onion Sites من خلال شبكة TOR ، مما يتيح لك الوصول إلى البيانات واستخراجها من الويب المظلم بأمان ومجهول. هذه الميزة مثالية للباحثين ومحللي الأمن والمحققين الذين يحتاجون إلى جمع المعلومات من Tor Hidden Services.
تثبيت Tor على نظامك:
# Ubuntu/Debian
sudo apt install tor
# macOS (using Homebrew)
brew install tor
# Start the Tor service
sudo service tor start # on Linux
brew services start tor # on macOS
تثبيت حزم Python إضافية:
pip install PySocks requests[socks]
الاستخدام الأساسي : ما عليك سوى إدخال عنوان URL .onion ، وسيقوم CybersCroper بالاكتشاف تلقائيًا وتوجيهه عبر شبكة TOR:
http://example123abc.onion
ميزات السلامة :
يمكنك تخصيص سلوك تجريف TOR عن طريق ضبط الإعدادات التالية:
tor_config = TorConfig (
socks_port = 9050 , # Default Tor SOCKS port
circuit_timeout = 10 , # Timeout for circuit creation
auto_renew_circuit = True , # Automatically renew Tor circuit
verify_connection = True # Verify Tor connection before scraping
)
لمستخدمي Docker ، أضف هذه الأعلام الإضافية لتمكين دعم TOR:
docker run -p 8501:8501
--network= " host "
-e OPENAI_API_KEY= " your-api-key "
cyberscraper-2077
إذا واجهت مشكلات مع تجريف TOR:
sudo service tor status
)netstat -an | grep 9050
)tor --version
)client_secret.json
. تخصيص إعدادات PlaywrightScraper
لتناسب احتياجاتك من التجسس. إذا كانت بعض مواقع الويب تمنحك مشكلات ، فقد ترغب في التحقق من سلوك موقع الويب:
use_stealth: bool = True,
simulate_human: bool = False,
use_custom_headers: bool = True,
hide_webdriver: bool = True,
bypass_cloudflare: bool = True:
اضبط هذه الإعدادات بناءً على موقع الويب المستهدف والبيئة للحصول على النتائج المثلى.
يمكنك أيضًا تجاوز captcha باستخدام معلمة -captcha
في نهاية عنوان URL. ستظهر نافذة المتصفح ، وإكمال Captcha ، والعودة إلى نافذة الطرفية. اضغط على Enter وسيكمل الروبوت مهمته.
نرحب بجميع Cyberpunks و NetRunners و Code Samurais للمساهمة في CybersCroper 2077!
ركض في خلل في المصفوفة؟ اسمحوا لي أن أعرف بإضافة المشكلة إلى هذا الريبو حتى نتمكن من إصلاحها معًا.
س: هل CybersCroper 2077 قانوني للاستخدام؟ ج: تم تصميم Cyberscraper 2077 لتجاهل الويب الأخلاقي. تأكد دائمًا من أن لديك الحق في كشط موقع ويب واحترام ملف robots.txt الخاص بهم.
س: هل يمكنني استخدام هذا لأغراض تجارية؟ ج: نعم ، بموجب شروط ترخيص معهد ماساتشوستس للتكنولوجيا. لكن تذكر ، في Night City ، هناك دائمًا ثمن للدفع. أنا فقط أمزح!
تم ترخيص هذا المشروع بموجب ترخيص معهد ماساتشوستس للتكنولوجيا - راجع ملف الترخيص للحصول على التفاصيل. استخدمه ، وتعديله ، وبيعه - فقط لا تلومنا إذا انتهى بك المطاف.
هل لديك أسئلة؟ هل تحتاج إلى الدعم؟ تريد توظيف لي لحفلة؟
استمع ، تشوماس! قبل أن ترفع في هذا الرمز ، فأنت تفهم المخاطر بشكل أفضل:
يتم توفير هذا البرنامج "كما هو" ، دون أي ضمان من أي نوع أو صريح أو ضمني.
لا يتحمل المؤلفون مسؤولية أي أضرار أو خسائر ناتجة عن استخدام هذا البرنامج.
هذه الأداة مخصصة للأغراض التعليمية والبحثية فقط. أي استخدام غير قانوني محظور بشكل صارم.
نحن لا نضمن دقة أو اكتمال أو موثوقية أي بيانات تم الحصول عليها من خلال هذه الأداة.
باستخدام هذا البرنامج ، فإنك تقر بأنك تفعل ذلك على مسؤوليتك الخاصة.
أنت مسؤول عن الامتثال لجميع القوانين واللوائح المعمول بها في استخدامك لهذا البرنامج.
نحن نحتفظ بالحق في تعديل البرنامج أو وقفه في أي وقت دون إشعار.
تذكر ، الساموراي: في المستقبل المظلم للشبكة ، فإن المعرفة هي القوة ، لكنها أيضًا سيف مزدوج الحدين. استخدم هذه الأداة بحكمة ، وقد يكون اتصالك دائمًا قويًا وجدران الحماية الخاصة بك لا يمكن اختراقها. ابق فاترة هناك في الحدود الرقمية.
Cyberscraper 2077 - لأنه في عام 2077 ، ما الذي يجعل شخصًا ما مجرمًا؟ يتم القبض عليها.
بنيت مع ❤ والكروم في شوارع Night City | © 2077 أوين سينغ