เว็บไซต์ | เอกสาร API | แชท
DataFusion เป็นเอ็นจิ้นการสืบค้นแบบขยายได้ซึ่งเขียนด้วยภาษา Rust ซึ่งใช้ Apache Arrow เป็นรูปแบบในหน่วยความจำ
ลังนี้มีไลบรารีและไบนารีสำหรับนักพัฒนาที่สร้างอย่างรวดเร็วและมีฐานข้อมูลและระบบการวิเคราะห์ที่หลากหลาย ซึ่งปรับแต่งให้เหมาะกับปริมาณงานเฉพาะ ดูกรณีการใช้งานสำหรับตัวอย่าง โครงการย่อยที่เกี่ยวข้องต่อไปนี้กำหนดเป้าหมายไปที่ผู้ใช้:
DataFusion นำเสนอ API ของ [SQL] และ [ Dataframe
] ประสิทธิภาพที่ยอดเยี่ยม การรองรับ CSV, Parquet, JSON และ Avro ในตัว การปรับแต่งที่ครอบคลุม และชุมชนที่ยอดเยี่ยม "นอกกรอบ"
DataFusion มีเครื่องมือวางแผนคิวรีเต็มรูปแบบ คอลัมน์ การสตรีม กลไกการดำเนินการแบบเวกเตอร์แบบมัลติเธรด และแหล่งข้อมูลแบบแบ่งพาร์ติชัน คุณสามารถปรับแต่ง DataFusion ได้ในเกือบทุกจุด รวมถึงแหล่งข้อมูลเพิ่มเติม ภาษาในการสืบค้น ฟังก์ชัน ตัวดำเนินการแบบกำหนดเอง และอื่นๆ อีกมากมาย ดูส่วนสถาปัตยกรรมสำหรับรายละเอียดเพิ่มเติม
นี่คือลิงก์ไปยังข้อมูลสำคัญบางประการ
DataFusion เหมาะอย่างยิ่งสำหรับการสร้างโปรเจ็กต์ เช่น กลไกการสืบค้นเฉพาะโดเมน แพลตฟอร์มฐานข้อมูลใหม่และไปป์ไลน์ข้อมูล ภาษาการสืบค้น และอื่นๆ มันช่วยให้คุณเริ่มต้นได้อย่างรวดเร็วจากเอ็นจิ้นที่ทำงานเต็มที่ จากนั้นปรับแต่งคุณสมบัติเหล่านั้นให้เหมาะกับการใช้งานของคุณโดยเฉพาะ คลิกที่นี่เพื่อดูรายชื่อผู้ใช้ที่รู้จัก
โปรดดูคู่มือผู้ร่วมให้ข้อมูลและหน้าการสื่อสารสำหรับข้อมูลเพิ่มเติม
ลังนี้มีคุณสมบัติหลายประการซึ่งสามารถระบุได้ใน Cargo.toml
ของคุณ
คุณสมบัติเริ่มต้น:
nested_expressions
: ฟังก์ชันสำหรับการทำงานกับฟังก์ชันประเภทซ้อน เช่น array_to_string
compression
: การอ่านไฟล์ที่บีบอัดด้วย xz2
, bzip2
, flate2
และ zstd
crypto_expressions
: ฟังก์ชันการเข้ารหัสเช่น md5
และ sha256
datetime_expressions
: ฟังก์ชันวันที่และเวลา เช่น to_timestamp
encoding_expressions
: ฟังก์ชั่น encode
และ decode
parquet
: รองรับการอ่านรูปแบบ Apache Parquetregex_expressions
: ฟังก์ชันนิพจน์ทั่วไป เช่น regexp_match
unicode_expressions
: รวมฟังก์ชันการรับรู้ Unicode เช่น character_length
unparser
: เปิดใช้งานการสนับสนุนการย้อนกลับ LogicalPlans กลับสู่ SQLคุณสมบัติเสริม:
avro
: รองรับการอ่านรูปแบบ Apache Avrobacktrace
: รวมข้อมูล backtrace ในข้อความแสดงข้อผิดพลาดpyarrow
: การแปลงระหว่างประเภท PyArrow และ DataFusionserde
: เปิดใช้งานคุณสมบัติ serde
ของ arrow-schema การเผยแพร่ Toolchain ของ Rust จะถูกติดตามที่เวอร์ชัน Rust และติดตามการกำหนดเวอร์ชันเชิงความหมาย การเผยแพร่ Toolchain ของ Rust สามารถระบุได้ด้วยสตริงเวอร์ชัน เช่น 1.80.0
หรือโดยทั่วไปคือ major.minor.patch
DataFusion รองรับเวอร์ชันรองของ Rust ที่เสถียร 4 เวอร์ชันล่าสุดที่เผยแพร่ และเวอร์ชันดังกล่าวใดๆ ที่เผยแพร่ภายใน 4 เดือนที่ผ่านมา
ตัวอย่างเช่น จากการเปิดตัว 1.78.0
, 1.79.0
, 1.80.0
, 1.80.1
และ 1.81.0
DataFusion จะรองรับ 1.78.0 ซึ่งเป็น 3 เวอร์ชันรองก่อน 1.81
รองล่าสุด
หมายเหตุ: หากมีการเผยแพร่โปรแกรมแก้ไขด่วน Rust สำหรับ MSRV ปัจจุบัน MSRV จะได้รับการอัปเดตเป็นเวอร์ชันรองเฉพาะที่มีโปรแกรมแก้ไขด่วนที่เกี่ยวข้องทั้งหมดที่อยู่ก่อนหน้านโยบายอื่น ๆ
DataFusion บังคับใช้นโยบาย MSRV โดยใช้ MSRV CI Check
วิธีการสาธารณะใน Apache DataFusion อาจมีการพัฒนาโดยเป็นส่วนหนึ่งของวงจรการใช้งาน API วิธีการที่เลิกใช้งานจะค่อยๆ หมดลงตามนโยบาย เพื่อให้มั่นใจว่า API มีความเสถียรและมีคุณภาพ