รายการชื่อได้มาจาก "Enamdict/jmnedict - ไฟล์พจนานุกรมชื่อที่เหมาะสมของญี่ปุ่น" มีอยู่ที่นี่
รายการที่ไม่ได้เริ่มต้นด้วยคันจิถูกลบออกเพื่อยกเว้นชื่อต่างประเทศ มันทำโดยเพียงแค่ค้นหารายการแรกที่เริ่มต้นด้วยคันจิและลบรายการก่อนหน้า เนื่องจากสิ่งที่เริ่มต้นด้วย Hiragana หรือ Katakana นำหน้าตัวคันจิพวกเขาก็ถูกลบออกโดยการดำเนินการเดียวกัน รายการสุดท้ายของไฟล์เป็นหนึ่งเดียวที่ประกอบด้วยคันจิดังนั้นจึงไม่มีอะไรที่จะลบออกจากส่วนท้ายของไฟล์ ชื่อไฟล์ที่ได้รับเรียกว่า filtered
รายการนั้นถูกแบ่งออกเป็นชื่อชายและหญิงที่ได้รับชื่ออื่น ๆ นามสกุลสถานที่ ฯลฯ ถูกเพิกเฉย มีชื่อตระกูล Anki Deck ที่มีอยู่ใน Ankiweb อยู่แล้วและด้วยเหตุนี้ฉันจะไม่ทิ้งพวกเขา
ในการลบรายการทั้งหมดที่ไม่ใช่ชื่อชาย (fe) ที่กำหนดบรรทัดที่มี regexp คือ ^.*/([^m]{1-8}).*n
แทนที่โดยไม่มีอะไรเลย รายการที่สามารถออกจากหมวดหมู่ได้มากกว่าหนึ่งรายการก็ถูกลบออกโดยใช้ ^.*/(.,.+).*n
รายชื่อชาย (หญิง) ที่ได้รับเรียกว่าชายและหญิง มีชื่อหญิง 97008 ชื่อและ 19025 ตัวผู้
มีหลายรายการที่มีคีย์เดียวกันเช่น homographs ที่มีการอ่านที่แตกต่างกัน พวกเขาทั้งหมดถูกรวมเข้าด้วยกันเพื่อให้มีคำหลักเพียงคำเดียวในการค้นหาแต่ละคำเพราะไม่มีวิธีที่จะแยกแยะว่าอ่านผลลัพธ์ที่สอดคล้องกันโดยอัตโนมัติ หลังจากนั้นมีชื่อ 16484 รายการของชื่อชายและ 77171 สำหรับชื่อหญิงที่ได้รับ
สคริปต์ง่ายๆถูกเขียนขึ้นเพื่อคัดลอกหน้าการค้นหาจาก yahoo.co.jp และรับจำนวนฮิตจากแต่ละรายการโดยประมาณ มันไม่สมบูรณ์แบบ แต่อาจให้ความคิดว่าชื่อใดเป็นเรื่องธรรมดาที่สุด นอกจากนี้ยังมีบางชื่อที่เป็นคำทั่วไปเช่น一年และ一人ที่ต้องกรองในภายหลังเพราะจำนวนการเข้าชมส่วนใหญ่อาจมาจากคำทั่วไป ผลลัพธ์คือไฟล์ที่มีคำ -count
ท้าย
การหมุนของพร็อกซีมาจากที่นี่ แต่ดูเหมือนจะไม่ทำงานอย่างสม่ำเสมอบางทีอาจเป็นเพราะการป้องกันบอทจาก Yahoo
ไฟล์จาก EnamDict ไม่ได้เข้ารหัสด้วย utf8
และพวกเขาจะต้องได้รับการเข้ารหัสใหม่เพื่อทำงานกับ Python มันสามารถทำได้ใน emacs โดยการเปิดโดยใช้ Ma revert-buffer-wth-coding-system > japanese-iso-8bit
เพื่อแสดงอักขระอย่างถูกต้อง จากนั้น Ma set-buffer-file-coding-system utf-8
และบันทึกไฟล์
สคริปต์อื่นถูกเขียนขึ้นเพื่อติดแท็กชื่อที่มีอยู่เป็นรายการใน edict2 เช่นคำที่ใช้เป็นชื่อ คำเหล่านั้นถูกแท็กเพราะเป็นไปได้ว่าผลลัพธ์ส่วนใหญ่ในการค้นหาเว็บมาจากคำและไม่ได้มาจากชื่อ รายการที่ประมวลผลรวมถึงผลลัพธ์การนับมีชื่อพร้อมคำนำหน้า -finished
หลังจากเสร็จสิ้นการประมวลผลรายการรายชื่อถูกเปลี่ยนเป็นดาดฟ้า Anki ฟิลด์รวมทั้งการอ่าน Kana และ Romaji และผลลัพธ์การนับรวมอยู่ในการเรียงลำดับชื่อด้วย
รายการทั้งหมดรวมอยู่ด้วย แต่สามารถให้รายการสั้น ๆ ได้ตามคำขอของ GitHub
ฉันพยายามสั่งซื้อบัตรที่ครบกำหนดโดยการนับผลลัพธ์ลดลง แต่ฉันไม่แน่ใจว่าการกำหนดเวลาจะถูกเก็บรักษาไว้หรือไม่ ถ้าไม่จำเป็นต้องแก้ไขฟิลด์การเรียงลำดับใน "จัดการประเภทหมายเหตุ" เพื่อสั่งซื้อตามจำนวน
เด็คที่มีชื่อชายถูกโพสต์บน Ankiweb และสามารถพบได้ที่นี่