Heritrix เป็นโครงการโปรแกรมรวบรวมข้อมูลเว็บโอเพ่นซอร์สที่ขยายได้ขนาดเว็บและมีคุณภาพในการเก็บถาวรของ Internet Archive Heritrix (บางครั้งสะกดว่า heretrix หรือสะกดผิดหรือสะกดผิดว่า heratrix/heritix/heretix/heratix) เป็นคำโบราณที่ใช้แทนทายาท (หญิงผู้สืบทอด) เนื่องจากโปรแกรมรวบรวมข้อมูลของเราพยายามรวบรวมและรักษาสิ่งประดิษฐ์ดิจิทัลของวัฒนธรรมของเราเพื่อประโยชน์ของนักวิจัยและคนรุ่นต่อไปในอนาคต ชื่อนี้จึงดูเหมาะสม
Heritrix ออกแบบมาเพื่อให้เป็นไปตามคำสั่งการยกเว้นของ robots.txt
† และแท็ก nofollow ของ META โปรดพิจารณาโหลดที่การรวบรวมข้อมูลของคุณจะเกิดขึ้นบนไซต์เริ่มต้น และกำหนดนโยบายความสุภาพให้สอดคล้องกัน นอกจากนี้ ให้ระบุการรวบรวมข้อมูลของคุณด้วยข้อมูลติดต่อใน User-Agent
เสมอ เพื่อให้ไซต์ที่อาจได้รับผลกระทบในทางลบจากการรวบรวมข้อมูลของคุณสามารถติดต่อกับคุณหรือปรับเปลี่ยนพฤติกรรมของเซิร์ฟเวอร์ได้ตามนั้น
† ยังไม่รองรับส่วนขยาย wildcard รุ่นใหม่ของ robots.txt
ข้อมูลเกี่ยวกับการเผยแพร่สามารถพบได้ที่นี่
Heritrix เป็นซอฟต์แวร์เสรี คุณสามารถแจกจ่ายต่อและ/หรือแก้ไขได้ภายใต้เงื่อนไขของ Apache License เวอร์ชัน 2.0
ไฟล์ซอร์สโค้ดบางไฟล์อยู่ภายใต้หรือนำเสนอภายใต้ใบอนุญาตอื่น ดูไฟล์ LICENSE.txt
ที่ให้มาสำหรับข้อมูลเพิ่มเติม
Heritrix ถูกแจกจ่ายพร้อมกับไลบรารี่ที่มันขึ้นอยู่กับ ไลบรารีต่างๆ สามารถพบได้ภายใต้ไดเร็กทอรี lib
ในการเผยแพร่รุ่น และใช้ภายใต้เงื่อนไขของสิทธิ์การใช้งานที่เกี่ยวข้อง ซึ่งรวมอยู่เคียงข้างไลบรารีในไดเร็กทอรี lib