ดาวน์โหลด auctus - ดาวน์โหลดซอร์สโค้ด auctus

auctus

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

ออคตัส

โปรเจ็กต์นี้เป็นโปรแกรมรวบรวมข้อมูลเว็บและเครื่องมือค้นหาสำหรับชุดข้อมูล ซึ่งมีไว้สำหรับงานเสริมข้อมูลในแมชชีนเลิร์นนิงโดยเฉพาะ สามารถค้นหาชุดข้อมูลในที่เก็บข้อมูลต่างๆ และจัดทำดัชนีเพื่อการเรียกค้นในภายหลัง

เอกสารมีอยู่ที่นี่

แบ่งออกเป็นหลายองค์ประกอบ:

ห้องสมุด
- ฐานข้อมูลเชิงพื้นที่ datamart_geo ประกอบด้วยข้อมูลเกี่ยวกับเขตบริหารที่ดึงมาจาก Wikidata และ OpenStreetMap มันอาศัยอยู่ในพื้นที่เก็บข้อมูลของตัวเองและถูกใช้ที่นี่เป็นโมดูลย่อย
- การทำโปรไฟล์ไลบรารี datamart_profiler ไคลเอนต์สามารถติดตั้งได้ ซึ่งจะทำให้ไลบรารีไคลเอนต์สามารถสร้างโปรไฟล์ชุดข้อมูลในเครื่องแทนที่จะส่งไปยังเซิร์ฟเวอร์ นอกจากนี้ยังใช้โดยบริการ apiserver และผู้สร้างโปรไฟล์อีกด้วย
- ไลบรารีการทำให้เป็นรูปธรรม datamart_materialize ใช้เพื่อสร้างชุดข้อมูลจากแหล่งต่างๆ ที่ Auctus รองรับ ไคลเอนต์สามารถติดตั้งได้ ซึ่งจะช่วยให้พวกเขาสามารถสร้างชุดข้อมูลในเครื่องแทนการใช้เซิร์ฟเวอร์เป็นพร็อกซี
- ไลบรารีการเพิ่มข้อมูล datamart_augmentation การดำเนินการนี้จะรวมหรือรวมชุดข้อมูลสองชุดเข้าด้วยกันและใช้งานโดยบริการ apiserver แต่อาจใช้แบบสแตนด์อโลนได้
- ไลบรารีเซิร์ฟเวอร์หลัก datamart_core ประกอบด้วยรหัสทั่วไปสำหรับบริการ ใช้สำหรับส่วนประกอบเซิร์ฟเวอร์เท่านั้น รหัสล็อคระบบไฟล์แยกเป็น datamart_fslock ด้วยเหตุผลด้านประสิทธิภาพ (ต้องนำเข้าอย่างรวดเร็ว)
บริการ
- บริการการค้นพบ : มีหน้าที่ในการค้นหาชุดข้อมูล ปลั๊กอินแต่ละตัวสามารถสื่อสารกับพื้นที่เก็บข้อมูลเฉพาะได้ ข้อมูลเมตาการทำให้เป็นรูปธรรม จะถูกบันทึกสำหรับแต่ละชุดข้อมูล เพื่อให้สามารถเรียกชุดข้อมูลนั้นได้ในอนาคต
- Profiler : บริการนี้จะดาวน์โหลดชุดข้อมูลที่ค้นพบและคำนวณข้อมูลเมตาเพิ่มเติมที่สามารถใช้สำหรับการค้นหา (เช่น มิติข้อมูล ประเภทความหมาย การแจกแจงค่า) ใช้ไลบรารีการทำโปรไฟล์และการทำให้เป็นจริง
- เซิร์ฟเวอร์ Lazo : บริการนี้รับผิดชอบในการจัดทำดัชนีแอตทริบิวต์ข้อความและหมวดหมู่โดยใช้ Lazo รหัสสำหรับเซิร์ฟเวอร์และไคลเอนต์มีอยู่ที่นี่
- apiserver : บริการนี้ตอบสนองต่อคำขอจากไคลเอนต์เพื่อค้นหาชุดข้อมูลในดัชนี (เรียกใช้การสืบค้นตามความต้องการโดยบริการค้นพบที่รองรับ) อัปโหลดชุดข้อมูลใหม่ ชุดข้อมูลโปรไฟล์ หรือดำเนินการเสริม ใช้ไลบรารีการทำโปรไฟล์และการทำให้เป็นจริง ปรับใช้ JSON API โดยใช้เฟรมเวิร์กเว็บ Tornado
- ตัวล้างแคช : บริการนี้ทำให้แน่ใจว่าแคชชุดข้อมูลอยู่ภายใต้ขีดจำกัดขนาดที่กำหนดโดยการลบชุดข้อมูลที่ใช้น้อยที่สุดล่าสุดเมื่อถึงขนาดที่กำหนดค่าไว้
- ผู้ประสานงาน : บริการนี้รวบรวมตัวชี้วัดบางส่วนและเสนออินเทอร์เฟซการบำรุงรักษาสำหรับผู้ดูแลระบบ
- ส่วนหน้า : นี่คือแอป React ที่ใช้เว็บอินเตอร์เฟสที่ใช้งานง่ายที่ด้านบนของ API

สถาปัตยกรรมออคตัส

Elasticsearch ใช้เป็นดัชนีการค้นหา โดยจัดเก็บหนึ่งเอกสารต่อชุดข้อมูลที่รู้จัก

บริการแลกเปลี่ยนข้อความผ่าน RabbitMQ ทำให้เรามีรูปแบบการส่งข้อความที่ซับซ้อนพร้อมการจัดคิวและลองซีแมนทิกส์ซ้ำ และรูปแบบที่ซับซ้อน เช่น การสืบค้นตามความต้องการ

ภาพรวม AMQP

การปรับใช้

ขณะนี้ระบบกำลังทำงานอยู่ที่ https://auctus.vida-nyu.org/ สามารถดูสถานะระบบได้ที่ https://grafana.auctus.vida-nyu.org/

การตั้งค่าการใช้งาน / การพัฒนาในพื้นที่

หากต้องการปรับใช้ระบบภายในเครื่องโดยใช้ docker-compose ให้ทำตามขั้นตอนเหล่านี้:

ตั้งค่าสภาพแวดล้อม

ตรวจสอบให้แน่ใจว่าคุณได้ตรวจสอบโมดูลย่อยด้วย git submodule init && git submodule update

ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้งและกำหนดค่า Git LFS แล้ว ( git lfs install )

คัดลอก env.default ไปที่ .env และอัปเดตตัวแปรที่นั่น คุณอาจต้องการอัปเดตรหัสผ่านสำหรับการปรับใช้จริง

ตรวจสอบให้แน่ใจว่าโหนดของคุณได้รับการตั้งค่าสำหรับการเรียกใช้ Elasticsearch คุณอาจต้องเพิ่มขีดจำกัด mmap

API_URL คือ URL ที่คอนเทนเนอร์ apiserver จะปรากฏแก่ไคลเอ็นต์ ในการปรับใช้ที่ใช้งานจริง นี่อาจเป็น HTTPS URL ที่เปิดเผยต่อสาธารณะ อาจเป็น URL เดียวกันกับที่คอมโพเนนต์ "ผู้ประสานงาน" จะให้บริการหากใช้พร็อกซีย้อนกลับ (ดู nginx.conf)

หากต้องการรันสคริปต์ในเครื่อง คุณสามารถโหลดตัวแปรสภาพแวดล้อมลงในเชลล์ของคุณได้โดยการรัน . scripts/load_env.sh (นั่นคือ สคริปต์ dot space... )

เตรียมปริมาณข้อมูล

เรียกใช้ scripts/setup.sh เพื่อเริ่มต้นปริมาณข้อมูล นี่จะเป็นการตั้งค่าการอนุญาตที่ถูกต้องบน volumes/ ไดเร็กทอรีย่อย

หากคุณต้องการเริ่มต้นใหม่ทั้งหมด คุณสามารถลบ volumes/ ได้ แต่อย่าลืมเรียกใช้ scripts/setup.sh อีกครั้งในภายหลังเพื่อตั้งค่าสิทธิ์

สร้างตู้คอนเทนเนอร์

 $ docker-compose build --build-arg version=$(git describe) apiserver

เริ่มภาชนะฐาน

 $ docker-compose up -d elasticsearch rabbitmq redis minio lazo

สิ่งเหล่านี้จะใช้เวลาไม่กี่วินาทีในการเริ่มต้นและทำงาน จากนั้นคุณสามารถเริ่มส่วนประกอบอื่นๆ ได้:

 $ docker-compose up -d cache-cleaner coordinator profiler apiserver apilb frontend

คุณสามารถใช้ตัวเลือก --scale เพื่อเริ่มสร้างโปรไฟล์หรือคอนเทนเนอร์ apiserver เพิ่มเติมได้ เช่น:

 $ docker-compose up -d --scale profiler=4 --scale apiserver=8 cache-cleaner coordinator profiler apiserver apilb frontend

พอร์ต:

เว็บอินเตอร์เฟสอยู่ที่ http://localhost:8001
API ที่ http://localhost:8002/api/v1 (ด้านหลัง HAProxy)
Elasticsearch อยู่ที่ http://localhost:8020
เซิร์ฟเวอร์ Lazo อยู่ที่ http://localhost:8030
อินเทอร์เฟซการจัดการ RabbitMQ อยู่ที่ http://localhost:8010
ตัวชี้วัด RabbitMQ อยู่ที่ http://localhost:8012
อินเทอร์เฟซ Minio อยู่ที่ http://localhost:8050 (ถ้าคุณใช้)
สถิติ HAProxy อยู่ที่ http://localhost:8004
Prometheus อยู่ที่ http://localhost:8040
Grafana อยู่ที่ http://localhost:8041

นำเข้าภาพรวมของดัชนีของเรา (ไม่บังคับ)

 $ scripts/docker_import_snapshot.sh

การดำเนินการนี้จะดาวน์โหลดดัมพ์ Elasticsearch จาก auctus.vida-nyu.org และนำเข้าลงในคอนเทนเนอร์ Elasticsearch ในเครื่องของคุณ

เริ่มปลั๊กอินการค้นพบ (ไม่บังคับ)

 $ docker-compose up -d socrata zenodo

เริ่มแดชบอร์ดเมตริก (ไม่บังคับ)

 $ docker-compose up -d elasticsearch_exporter prometheus grafana

Prometheus ได้รับการกำหนดค่าให้ค้นหาคอนเทนเนอร์โดยอัตโนมัติ (ดู prometheus.yml)

ใช้อิมเมจ RabbitMQ แบบกำหนดเองพร้อมปลั๊กอินเพิ่มเติม (การจัดการและโพร)

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-12-25
ขนาด 2.91MB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด