Mendukung penyesuaian header permintaan ini melalui header (peta) di objek Permintaan, dan mendukung penyesuaian cookie melalui seimiCookies. Cookie yang disesuaikan akan langsung masuk ke cookiesStore dan akan tetap valid untuk permintaan kedua di domain yang sama.
Optimalkan mode startup default, ubah cn.wanghaomiao.seimi.boot.Run untuk mendukung CommandLineParser, Anda dapat menggunakan -c dan -p untuk meneruskan parameter, di mana -c digunakan untuk menentukan nama crawler, kelipatannya dipisahkan dengan ',', dan -p menentukan port, Anda dapat secara selektif memulai layanan http tertanam dan mengaktifkan penggunaan antarmuka http tertanam.
Plug-in pengemasan maven-compiler-plugin telah ditingkatkan ke 1.3.0, skrip di Linux telah ditingkatkan, dan file konfigurasi startup telah ditambahkan. Anda dapat melihatnya secara detail di beranda maven-compiler-plugin.
Pengunduh default diubah menjadi ApacheHttpclient, dan cadangannya adalah implementasi pengunduh OkHttp3
Optimalkan beberapa kode
Secara default, semua log demo dikeluarkan ke konsol.
Pengantar SeimiCrawler (kerangka perayap Java)SeimiCrawler adalah kerangka kerja perayap Java yang gesit, diterapkan secara independen, dan terdistribusi. Ia berharap dapat meminimalkan ambang batas bagi pemula untuk mengembangkan sistem perayap dengan ketersediaan tinggi dan kinerja yang baik, serta meningkatkan efisiensi pengembangan pengembangan sistem perayap. Di dunia SeimiCrawler, kebanyakan orang hanya perlu memikirkan penulisan logika bisnis perayapan, dan Seimi akan menangani sisanya untuk Anda. Dalam hal konsep desain, SeimiCrawler terinspirasi oleh kerangka crawler Python, Scrapy, yang juga mengintegrasikan karakteristik bahasa Java itu sendiri dan karakteristik Spring, sehingga lebih nyaman dan umum di China untuk menggunakan XPath yang lebih efisien untuk mengurai HTML , jadi parser HTML default SeimiCrawler adalah JsoupXpath (proyek ekstensi independen, tidak disertakan dengan jsoup) menggunakan XPath untuk mengurai dan mengekstrak data HTML secara default (tentu saja, Anda juga dapat memilih parser lain untuk pemrosesan data). Dan dikombinasikan dengan SeimiAgent, ini secara lengkap dan sempurna memecahkan masalah rendering dan perayapan halaman dinamis yang kompleks.
Tampilan SeimiCrawler (kerangka perayap Java).