Chatbot NER는 문자 메시지에서 엔터티 인식을 지원하도록 맞춤 제작된 오픈 소스 프레임워크입니다. 기존 NER 시스템에 대한 철저한 연구를 수행한 후 Haptik 팀은 대화형 AI에 맞춤화되고 인도 언어도 지원하는 프레임워크를 구축해야 할 필요성을 느꼈습니다. 현재 Chatbot-ner는 영어, 힌디어, 구자라트어, 마라티어, 벵골어, 타밀어 및 이들의 코드 혼합 형식을 지원합니다. 현재 이 프레임워크는 몇 가지 NLP 기술과 함께 공통 패턴을 사용하여 희소 데이터가 있는 언어에서 필요한 엔터티를 추출합니다. Chatbotner의 API 구조는 대화형 AI 애플리케이션에 대한 유용성을 염두에 두고 설계되었습니다. Haptik 팀은 모든 인도어와 해당 지역 방언 에 대해 이 프레임워크를 포팅하기 위해 지속적으로 노력하고 있습니다.
docker를 사용하여 시스템에 Chatbot NER를 설정하는 방법에 대한 자세한 문서는 여기에서 확인할 수 있습니다.
엔터티 유형 | 코드 참조 | 설명 | 예 | 지원되는 언어 - ISO 639-1 코드 |
---|---|---|---|---|
시간 | 시간감지기 | 주어진 텍스트에서 시간을 감지합니다. | 내일 아침 5시, col subah th baje, kal subah 5 baje | 'en', 'hi', 'gu', 'bn', 'mr', 'ta' |
날짜 | 날짜고급감지기 | 주어진 텍스트에서 날짜 감지 | 다음 주 월요일, 아글레 솜바르, 아글레 솜바르 | 'en', 'hi', 'gu', 'bn', 'mr', 'ta' |
숫자 | 번호감지기 | 주어진 텍스트에서 숫자와 해당 단위를 감지합니다. | 1인당 50rs, 킬로 차발, 무하이 리터 오일 차히 | 'en', 'hi', 'gu', 'bn', 'mr', 'ta' |
전화 번호 | 전화감지기 | 주어진 텍스트에서 전화번호를 감지합니다. | 9833530536, +91 9833530536, ९८३३४३०५३५ | 'en', 'hi', 'gu', 'bn', 'mr', 'ta' |
이메일 | 이메일 탐지기 | 텍스트에서 이메일 감지 | 안녕하세요@haptik.co | '엔' |
텍스트 | 텍스트 감지기 | Datastore의 전체 텍스트 검색을 사용하거나 상황별 모델을 기반으로 텍스트 문자열에서 커스텀 항목을 감지합니다. | 피자 주문해 주세요 | 'en', 'hi', 'gu', 'bn', 'mr', 'ta'에 대한 검색 지원, 'en'에 대해서만 지원되는 상황별 모델 |
PNR | PNR검출기 | 해당 텍스트에서 PNR(일련번호) 코드를 감지합니다. | 내 항공편 PNR은 4SGX3E입니다. | '엔' |
정규식 | 정규식탐지기 | 맞춤 정규식 패턴을 사용하여 엔터티 감지 | 내 항공편 PNR은 4SGX3E입니다. | 해당 없음 |
위에서 언급한 기본 감지기에서 파생된 도시, 예산 쇼핑 크기와 같은 다른 맞춤 감지기가 있지만 현재 영어로만 지원되며 인도 사용자에게만 제한됩니다. 현재 언어와 지역에 맞게 확장하기 위해 구조 조정 중이며 현재 버전은 향후 더 이상 사용되지 않을 수 있습니다. 따라서 이미 생산 중인 애플리케이션의 경우 위 표에 언급된 기본 검출기만 사용하는 것이 좋습니다.
모든 엔터티 유형에 대한 API에 대한 자세한 문서는 여기에서 확인할 수 있습니다. 현재 API 구조는 대화형 AI 애플리케이션에서 쉽게 액세스할 수 있도록 구축되었습니다. 그러나 다른 응용 프로그램에도 사용할 수 있습니다.
모든 대화형 AI 애플리케이션에는 식별할 엔터티가 여러 개 있으며 한 엔터티에 대한 검색 논리는 다른 엔터티와 다를 수 있습니다. 이 저장소를 아래와 같이 구성했습니다.
우리는 엔터티를 숫자 , 패턴 , 시간 및 텍스트의 네 가지 주요 유형으로 분류했습니다.
숫자: 이 유형에는 숫자를 다루는 모든 엔터티가 포함됩니다. 예를 들어 숫자 감지, 예산 감지, 크기 감지 등이 있습니다.
패턴: 여기에는 패턴이나 정규식을 사용하여 식별할 수 있는 모든 감지 논리가 포함됩니다. 예를 들어 이메일, 전화번호, pnr 등입니다.
임시: 시간과 날짜를 감지하기 위한 감지 논리가 포함됩니다.
텍스트: 사전을 보고 개체를 식별합니다. 이 탐지에는 주로 텍스트(예: 요리, 요리, 레스토랑 등), 도시 이름, 사용자 위치 등의 탐지가 포함됩니다.
보다 유연한 감지 로직을 갖춘 언어 이식성을 위해 숫자, 시간 및 패턴이 ner_v2로 이동되었습니다. ner_v1에서는 현재 텍스트 엔터티만 언어를 지원합니다. 주요 API 변경 없이 ner_v2로 이동할 예정입니다.
현재 훈련 데이터를 추가하거나 정규식 형식으로 감지 패턴을 제공하여 Chatbot NER의 ner_v2에 기여할 수 있습니다. 우리는 향후 ML 모델 및 새 엔터티 추가 프로세스를 쉽게 할 수 있도록 몇 가지 아키텍처 제한 사항을 제거하기 위해 노력할 것입니다.
여기에 언급된 기여, 승인 및 코딩 지침의 일반적인 단계를 참조하세요.