รองรับการปรับแต่งส่วนหัวของคำขอนี้ผ่านส่วนหัว (แผนที่) ในออบเจ็กต์คำขอ และรองรับการปรับแต่งคุกกี้ผ่าน seimiCookies คุกกี้ที่กำหนดเองจะเข้าสู่ CookieStore โดยตรงและจะยังคงใช้ได้สำหรับคำขอที่สองในโดเมนเดียวกัน
ปรับโหมดการเริ่มต้นเริ่มต้นให้เหมาะสม แก้ไข cn.wanghaomiao.seimi.boot.Run เพื่อรองรับ CommandLineParser คุณสามารถใช้ -c และ -p เพื่อส่งพารามิเตอร์ โดยที่ -c ใช้เพื่อระบุชื่อโปรแกรมรวบรวมข้อมูล หลายรายการจะถูกคั่นด้วย ',' และ -p ระบุพอร์ต คุณสามารถเลือกเริ่มบริการ http แบบฝัง และเปิดใช้งานการใช้อินเทอร์เฟซ http แบบฝังได้
ปลั๊กอินแพ็คเกจ maven-compiler-plugin ได้รับการอัปเกรดเป็น 1.3.0 สคริปต์ภายใต้ Linux ได้รับการปรับปรุง และเพิ่มไฟล์การกำหนดค่าการเริ่มต้นระบบแล้ว คุณสามารถดูรายละเอียดได้ที่หน้าแรกของ maven-compiler-plugin
ตัวดาวน์โหลดเริ่มต้นจะเปลี่ยนเป็น ApacheHttpclient และข้อมูลสำรองคือการใช้งานตัวดาวน์โหลด OkHttp3
เพิ่มประสิทธิภาพโค้ดบางส่วน
ตามค่าเริ่มต้น บันทึกการสาธิตทั้งหมดจะถูกส่งออกไปยังคอนโซล
ข้อมูลเบื้องต้นเกี่ยวกับ SeimiCrawler (เฟรมเวิร์กโปรแกรมรวบรวมข้อมูล Java)SeimiCrawler เป็นเฟรมเวิร์ก Java crawler แบบกระจายที่คล่องตัวและปรับใช้อย่างอิสระ โดยหวังว่าจะลดเกณฑ์ขั้นต่ำสำหรับมือใหม่ในการพัฒนาระบบ crawler ที่มีความพร้อมใช้งานสูงและประสิทธิภาพที่ดี และปรับปรุงประสิทธิภาพการพัฒนาของการพัฒนาระบบ crawler ในโลกของ SeimiCrawler คนส่วนใหญ่จำเป็นต้องกังวลเกี่ยวกับการเขียนตรรกะทางธุรกิจของการรวบรวมข้อมูล แล้ว Seimi จะจัดการส่วนที่เหลือให้คุณ ในแง่ของแนวคิดการออกแบบ SeimiCrawler ได้รับแรงบันดาลใจจาก Scrapy เฟรมเวิร์กของ Python มันยังรวมคุณลักษณะของภาษา Java เข้ากับคุณลักษณะของ Spring อีกด้วย โดยหวังว่าจะทำให้สะดวกและแพร่หลายมากขึ้นในประเทศจีนในการใช้ XPath ที่มีประสิทธิภาพมากขึ้นในการแยกวิเคราะห์ HTML ดังนั้นตัวแยกวิเคราะห์ HTML เริ่มต้นของ SeimiCrawler คือ JsoupXpath (โครงการขยายอิสระที่ไม่รวมอยู่ใน jsoup) จะใช้ XPath เพื่อแยกวิเคราะห์และแยกข้อมูล HTML ตามค่าเริ่มต้น (แน่นอน คุณสามารถเลือกตัวแยกวิเคราะห์อื่นสำหรับการประมวลผลข้อมูลได้ด้วย) และเมื่อรวมกับ SeimiAgent จะช่วยแก้ปัญหาการแสดงผลและการรวบรวมข้อมูลเพจไดนามิกที่ซับซ้อนได้อย่างสมบูรณ์และสมบูรณ์แบบ
จอแสดงผล SemiCrawler (เฟรมเวิร์กโปรแกรมรวบรวมข้อมูล Java)