การใช้ search engine
โดยใช้โมเดลการค้นหาและอัลกอริธึมที่แตกต่างกัน เช่น binary search
tf-idf
และ word embeddings
นอกจากนี้ การใช้การจัดกลุ่ม K-means
และอัลกอริธึม KNN
เพื่อเพิ่มความเร็วในการค้นหา
มีชุดข้อมูลสองชุด อันหนึ่งมีบทความข่าว 7,000 บทความ และอันที่สองมีบทความข่าว 50,000 บทความที่ใช้สำหรับการจัดกลุ่ม บทความในชุดข้อมูลที่สองมีหมวดหมู่ ( sport
economy
politics
culture
และ health
) และใช้ใน KNN
เพื่อติดป้ายกำกับบทความในชุดข้อมูลแรก ชุดข้อมูลไม่อยู่ในที่เก็บนี้
ขั้นแรก คุณสร้างโมเดลดัชนีกลับด้านด้วยตัวเลือก 1 หรือโหลดโมเดลก่อนหน้าด้วยตัวเลือก 2 ตัวเลือก 3 และ 4 ใช้สำหรับกฎหมาย Zipf และ Heaps ตามลำดับ ตัวเลือกที่ 5 ใช้สำหรับการเริ่มต้นโมเดล kmeans ของเรา (ซึ่งใช้เวลาประมาณหนึ่งชั่วโมง) ตัวเลือกที่ 6 ใช้สำหรับติดป้ายกำกับชุดข้อมูลขนาดเล็กของเรา (ที่มีบทความข่าว 7,000 บทความ) โดยใช้ชุดข้อมูลที่ใหญ่กว่าของเรา (ที่มีบทความข่าว 50,000 บทความ)
ในการป้อนข้อมูลครั้งที่สอง คุณควรเลือกโมเดลที่จะใช้ (ระหว่างโมเดล binary
อย่างง่าย, โมเดล tf-idf
, โมเดล word2vec
, โมเดล k-means
หรือ KNN
) สำหรับการค้นหา จากนั้นเขียนข้อความค้นหาของคุณ
ผลการค้นหา 5 อันดับแรกและคะแนนจะแสดงให้คุณเห็น