Chatbot NER เป็นเฟรมเวิร์กโอเพ่นซอร์สที่สร้างขึ้นเพื่อรองรับการรับรู้เอนทิตีในข้อความ หลังจากทำการวิจัยอย่างละเอียดเกี่ยวกับระบบ NER ที่มีอยู่แล้ว ทีมงานของ Haptik รู้สึกถึงความจำเป็นอย่างมากในการสร้างเฟรมเวิร์กที่ปรับแต่งสำหรับ Conversational AI และยังรองรับภาษาอินเดียด้วย ปัจจุบัน Chatbot-ner รองรับ ภาษาอังกฤษ ฮินดี คุชราต มราฐี เบงกาลี และทมิฬ และมีโค้ดผสมกัน ขณะนี้กรอบงานนี้ใช้รูปแบบทั่วไปพร้อมกับเทคนิค NLP บางอย่างเพื่อแยกเอนทิตีที่จำเป็นออกจากภาษาที่มีข้อมูลกระจัดกระจาย โครงสร้าง API ของ Chatbot ner ได้รับการออกแบบโดยคำนึงถึงการใช้งานสำหรับแอปพลิเคชัน Conversational AI ทีมงานที่ Haptik ทำงานอย่างต่อเนื่องเพื่อถ่ายทอดกรอบการทำงานนี้สำหรับ ภาษาอินเดียทั้งหมดและภาษาท้องถิ่นที่เกี่ยวข้อง
เอกสารรายละเอียดเกี่ยวกับวิธีการตั้งค่า Chatbot NER บนระบบของคุณโดยใช้นักเทียบท่ามีอยู่ที่นี่
ประเภทเอนทิตี | การอ้างอิงรหัส | คำอธิบาย | ตัวอย่าง | ภาษาที่รองรับ - รหัส ISO 639-1 |
---|---|---|---|---|
เวลา | เครื่องตรวจจับเวลา | ตรวจจับเวลาจากข้อความที่กำหนด | พรุ่งนี้เช้าเวลา 5 โมงเช้า कल सुबह ५ बजे, kal subah 5 baje | 'en', 'สวัสดี', 'gu', 'bn', 'นาย', 'ตา' |
วันที่ | วันที่ขั้นสูงDetector | ตรวจจับวันที่จากข้อความที่กำหนด | วันจันทร์หน้า อาเกิล ซอมวาร์, अगले सोमवार | 'en', 'สวัสดี', 'gu', 'bn', 'นาย', 'ตา' |
ตัวเลข | เครื่องตรวจจับตัวเลข | ตรวจจับหมายเลขและหน่วยที่เกี่ยวข้องในข้อความที่กำหนด | 50 อาร์เอส ต่อคน ५ किलो चावल, मुझे एक लीटर ऑइल चाहिए | 'en', 'สวัสดี', 'gu', 'bn', 'นาย', 'ตา' |
หมายเลขโทรศัพท์ | เครื่องตรวจจับโทรศัพท์ | ตรวจจับหมายเลขโทรศัพท์ในข้อความที่กำหนด | 9833530536, +91 9833530536, อีเมล์ | 'en', 'สวัสดี', 'gu', 'bn', 'นาย', 'ตา' |
อีเมล | เครื่องตรวจจับอีเมล | ตรวจจับอีเมลในข้อความ | [email protected] | 'en' |
ข้อความ | เครื่องตรวจจับข้อความ | ตรวจหาเอนทิตีแบบกำหนดเองในสตริงข้อความโดยใช้การค้นหาข้อความแบบเต็มใน Datastore หรือตามโมเดลบริบท | สั่ง พิซซ่า ให้ฉัน , मुंबई में मौसम कैसा है | รองรับการค้นหาสำหรับ 'en', 'hi', 'gu', 'bn', 'mr', 'ta' โมเดลบริบทรองรับ 'en' เท่านั้น |
พีเอ็นอาร์ | PNRเครื่องตรวจจับ | ตรวจจับรหัส PNR (อนุกรม) ในข้อความที่กำหนด | PNR เที่ยวบินของฉันคือ 4SGX3E | 'en' |
นิพจน์ทั่วไป | RegexDetector | ตรวจจับเอนทิตีโดยใช้รูปแบบ regex ที่กำหนดเอง | PNR เที่ยวบินของฉันคือ 4SGX3E | นา |
มีตัวตรวจจับที่กำหนดเองอื่นๆ เช่น เมือง ขนาดการซื้อในราคาประหยัด ซึ่งได้มาจากตัวตรวจจับหลักที่กล่าวถึงข้างต้น แต่ปัจจุบันรองรับเป็นภาษาอังกฤษเท่านั้น และจำกัดเฉพาะผู้ใช้ชาวอินเดียเท่านั้น ขณะนี้เรากำลังอยู่ในขั้นตอนการปรับโครงสร้างใหม่เพื่อปรับขนาดตามภาษาและภูมิศาสตร์ และเวอร์ชันปัจจุบันอาจเลิกใช้งานในอนาคต ดังนั้น สำหรับการใช้งานที่ใช้งานจริงอยู่แล้ว เราขอแนะนำให้คุณ ใช้เฉพาะตัวตรวจจับหลัก ที่กล่าวถึงในตารางด้านบนเท่านั้น
มีเอกสารประกอบโดยละเอียดของ API สำหรับเอนทิตีทุกประเภทอยู่ที่นี่ โครงสร้าง API ปัจจุบันสร้างขึ้นเพื่อให้เข้าถึงได้ง่ายจากแอปพลิเคชัน AI แบบสนทนา แต่ก็สามารถนำไปใช้งานอื่นๆ ได้เช่นกัน
ในแอปพลิเคชัน AI การสนทนาใดๆ มีหลายเอนทิตีที่ต้องระบุ และตรรกะสำหรับการตรวจจับในเอนทิตีหนึ่งอาจแตกต่างจากเอนทิตีอื่น เราได้จัดระเบียบพื้นที่เก็บข้อมูลนี้ตามที่แสดงด้านล่าง
เราได้จำแนกเอนทิตีออกเป็นสี่ประเภทหลัก ได้แก่ ตัวเลข รูป แบบ ชั่วคราว และ ข้อความ
ตัวเลข: ประเภทนี้จะมีเอนทิตีทั้งหมดที่จัดการกับตัวเลขหรือตัวเลข เช่น การตรวจจับจำนวน การตรวจจับงบประมาณ การตรวจจับขนาด เป็นต้น
รูปแบบ: จะมีตรรกะการตรวจจับทั้งหมดซึ่งสามารถระบุตัวตนได้โดยใช้รูปแบบหรือนิพจน์ทั่วไป เช่น อีเมล หมายเลขโทรศัพท์ pnr เป็นต้น
ชั่วคราว: จะมีตรรกะการตรวจจับสำหรับการตรวจจับเวลาและวันที่
ต้นฉบับ: ระบุเอนทิตีโดยดูจากพจนานุกรม การตรวจจับนี้ส่วนใหญ่ประกอบด้วยการตรวจจับข้อความ (เช่น อาหาร อาหาร ร้านอาหาร ฯลฯ) ชื่อเมือง ตำแหน่งของผู้ใช้ ฯลฯ
ตัวเลข ชั่วคราว และรูปแบบ ถูกย้ายไปยัง ner_v2 เพื่อให้สามารถพกพาภาษาได้ พร้อมตรรกะการตรวจจับที่ยืดหยุ่นมากขึ้น ใน ner_v1 ปัจจุบันมีเพียงเอนทิตี ข้อความ เท่านั้นที่รองรับภาษา เราจะย้ายมันไปที่ ner_v2 โดยไม่มีการเปลี่ยนแปลง API ที่สำคัญใดๆ
ในปัจจุบัน คุณสามารถสนับสนุน ner_v2 ใน Chatbot NER ได้โดยการเพิ่ม ข้อมูลการฝึกอบรม หรือโดยการสนับสนุน รูปแบบการตรวจจับ ในรูปแบบของ regex เราจะดำเนินการลบข้อจำกัดทางสถาปัตยกรรมบางประการซึ่งจะทำให้กระบวนการเพิ่ม โมเดล ML และ เอนทิตีใหม่ ง่ายขึ้นในอนาคต
โปรดดูขั้นตอนทั่วไปของการให้ความช่วยเหลือ การอนุมัติ และแนวทางการเขียนโค้ดที่กล่าวถึงที่นี่