auctus تنزيل - auctus تنزيل كود المصدر

auctus

شفرة المصدر الأخرى

1.0.0

تنزيل

أوكتوس

هذا المشروع عبارة عن زاحف ويب ومحرك بحث لمجموعات البيانات، وهو مخصص خصيصًا لمهام زيادة البيانات في التعلم الآلي. إنه قادر على العثور على مجموعات البيانات في مستودعات مختلفة وفهرستها لاسترجاعها لاحقًا.

الوثائق متاحة هنا

وهي مقسمة إلى مكونات متعددة:

المكتبات
- قاعدة البيانات الجغرافية المكانية datamart_geo . يحتوي هذا على بيانات حول المناطق الإدارية المستخرجة من ويكي بيانات وOpenStreetMap. إنه يعيش في مستودعه الخاص ويستخدم هنا كوحدة فرعية.
- مكتبة ملفات التعريف datamart_profiler . يمكن للعملاء تثبيت هذا، وسيسمح لمكتبة العميل بملف تعريف مجموعات البيانات محليًا بدلاً من إرسالها إلى الخادم. يتم استخدامه أيضًا بواسطة خدمات apiserver وملفات التعريف.
- مكتبة التجسيد datamart_materialize . يُستخدم هذا لتجسيد مجموعة البيانات من المصادر المختلفة التي يدعمها Auctus. يمكن للعملاء تثبيته، مما سيسمح لهم بإنشاء مجموعات البيانات محليًا بدلاً من استخدام الخادم كوكيل.
- مكتبة زيادة البيانات datamart_augmentation . يؤدي هذا إلى ربط أو توحيد مجموعتي بيانات ويتم استخدامه بواسطة خدمة apiserver، ولكن من الممكن استخدامه بشكل مستقل.
- مكتبة الخادم الأساسية datamart_core . يحتوي هذا على رمز مشترك للخدمات. يستخدم فقط لمكونات الخادم. رمز قفل نظام الملفات منفصل كـ datamart_fslock لأسباب تتعلق بالأداء (يجب استيراده بسرعة).
خدمات
- خدمات الاكتشاف : هي المسؤولة عن اكتشاف مجموعات البيانات. يمكن لكل مكون إضافي التحدث إلى مستودع معين. يتم تسجيل البيانات الوصفية للتجسيد لكل مجموعة بيانات، للسماح باسترجاع مجموعة البيانات هذه في المستقبل.
- ملف التعريف : تقوم هذه الخدمة بتنزيل مجموعة البيانات المكتشفة وحساب بيانات التعريف الإضافية التي يمكن استخدامها للبحث (على سبيل المثال، الأبعاد، والأنواع الدلالية، وتوزيعات القيمة). يستخدم مكتبات التنميط والتجسيد.
- Lazo Server : هذه الخدمة مسؤولة عن فهرسة السمات النصية والفئوية باستخدام Lazo. رمز الخادم والعميل متاح هنا.
- apiserver : تستجيب هذه الخدمة لطلبات العملاء للبحث عن مجموعات البيانات في الفهرس (تشغيل الاستعلام عند الطلب بواسطة خدمات الاكتشاف التي تدعمه)، أو تحميل مجموعات بيانات جديدة، أو مجموعات بيانات الملف الشخصي، أو إجراء التعزيز. يستخدم مكتبات التنميط والتجسيد. ينفذ واجهة برمجة تطبيقات JSON باستخدام إطار عمل الويب Tornado.
- منظف ذاكرة التخزين المؤقت : تتأكد هذه الخدمة من بقاء ذاكرة التخزين المؤقت لمجموعة البيانات ضمن حد حجم معين عن طريق إزالة مجموعات البيانات الأقل استخدامًا عند الوصول إلى الحجم الذي تم تكوينه.
- المنسق : تجمع هذه الخدمة بعض المقاييس وتوفر واجهة صيانة لمسؤول النظام.
- الواجهة الأمامية : هذا هو تطبيق React الذي يقوم بتنفيذ واجهة ويب سهلة الاستخدام أعلى واجهة برمجة التطبيقات.

العمارة اوكتوس

يتم استخدام Elasticsearch كفهرس بحث، حيث يتم تخزين مستند واحد لكل مجموعة بيانات معروفة.

تقوم الخدمات بتبادل الرسائل من خلال RabbitMQ ، مما يتيح لنا الحصول على أنماط مراسلة معقدة مع دلالات الانتظار وإعادة المحاولة، وأنماط معقدة مثل الاستعلام عند الطلب.

نظرة عامة على AMQP

النشر

النظام يعمل حاليًا على https://auctus.vida-nyu.org/. يمكنك رؤية حالة النظام على https://grafana.auctus.vida-nyu.org/.

إعداد النشر/التطوير المحلي

لنشر النظام محليًا باستخدام docker-compose، اتبع الخطوات التالية:

إعداد البيئة

تأكد من قيامك بفحص الوحدة الفرعية باستخدام git submodule init && git submodule update

تأكد من تثبيت Git LFS وتكوينه ( git lfs install )

انسخ env.default إلى .env وقم بتحديث المتغيرات هناك. قد ترغب في تحديث كلمة المرور لنشر الإنتاج.

تأكد من إعداد العقدة الخاصة بك لتشغيل Elasticsearch. من المحتمل أن تضطر إلى رفع حد mmap.

API_URL هو عنوان URL الذي ستكون حاويات خادم API مرئية للعملاء. في عملية نشر الإنتاج، من المحتمل أن يكون هذا هو عنوان URL لـ HTTPS الذي يواجه الجمهور. يمكن أن يكون نفس عنوان URL الذي سيتم عرض مكون "المنسق" عليه في حالة استخدام وكيل عكسي (راجع nginx.conf).

لتشغيل البرامج النصية محليًا، يمكنك تحميل متغيرات البيئة في الصدفة الخاصة بك عن طريق تشغيل: . scripts/load_env.sh (هذه نصوص برمجية ذات مساحة نقطية... )

تحضير كميات من البيانات

قم بتشغيل scripts/setup.sh لتهيئة وحدات تخزين البيانات. سيؤدي هذا إلى تعيين الأذونات الصحيحة على volumes/ الدلائل الفرعية.

إذا أردت البدء من الصفر، يمكنك حذف volumes/ ولكن تأكد من تشغيل scripts/setup.sh مرة أخرى بعد ذلك لتعيين الأذونات.

بناء الحاويات

 $ docker-compose build --build-arg version=$(git describe) apiserver

ابدأ الحاويات الأساسية

 $ docker-compose up -d elasticsearch rabbitmq redis minio lazo

سيستغرق ذلك بضع ثوانٍ للتشغيل. ثم يمكنك البدء بالمكونات الأخرى:

 $ docker-compose up -d cache-cleaner coordinator profiler apiserver apilb frontend

يمكنك استخدام خيار --scale لبدء المزيد من حاويات ملفات التعريف أو خادم API، على سبيل المثال:

 $ docker-compose up -d --scale profiler=4 --scale apiserver=8 cache-cleaner coordinator profiler apiserver apilb frontend

الموانئ:

واجهة الويب موجودة على http://localhost:8001
واجهة برمجة التطبيقات على http://localhost:8002/api/v1 (خلف HAProxy)
Elasticsearch موجود على http://localhost:8020
خادم Lazo موجود على http://localhost:8030
واجهة إدارة RabbitMQ موجودة على http://localhost:8010
مقاييس RabbitMQ موجودة على http://localhost:8012
واجهة Minio موجودة على http://localhost:8050 (إذا كنت تستخدم ذلك)
إحصائيات HAProxy موجودة على http://localhost:8004
بروميثيوس موجود على http://localhost:8040
جرافانا موجود على http://localhost:8041

استيراد لقطة من الفهرس الخاص بنا (اختياري)

 $ scripts/docker_import_snapshot.sh

سيؤدي هذا إلى تنزيل ملف Elasticsearch من auctus.vida-nyu.org واستيراده إلى حاوية Elasticsearch المحلية لديك.

بدء اكتشاف المكونات الإضافية (اختياري)

 $ docker-compose up -d socrata zenodo

لوحة معلومات البدء المترية (اختياري)

 $ docker-compose up -d elasticsearch_exporter prometheus grafana

تم تكوين Prometheus للعثور تلقائيًا على الحاويات (انظر prometheus.yml)

يتم استخدام صورة RabbitMQ مخصصة، مع المكونات الإضافية المضافة (الإدارة وبروميثيوس).

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2024-12-25
الحجم 2.91MB
من Github

تطبيقات ذات صلة

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
SmartTube

شفرة المصدر الأخرى

24.71 Stable
Sunamu

شفرة المصدر الأخرى

Release 2.2.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
wp functions

فئات أخرى

1.0.0
termwind

فئات أخرى

v2.3.0

أخبار ذات صلة الكل