Viglet Turing ES(https://openviglet.github.io/turing/)는 Semantic Navigation과 Chat bot을 주요 기능으로 하는 오픈소스 솔루션(https://github.com/openturing)입니다. 여러 NLP 중에서 선택하여 데이터를 강화할 수 있습니다. 모든 콘텐츠는 Solr에서 검색 엔진으로 색인화됩니다.
Turing ES에 대한 기술 문서는 https://openviglet.github.io/docs/turing/에서 확인할 수 있습니다.
Turing ES를 실행하려면 다음 줄을 실행하면 됩니다.
# Turing Appmvn -Dmaven.repo.local=D:repo spring-boot:run -pl turing-app -Dskip.npm# Angular 18 및 Primer CSS.cd를 사용하는 새로운 Turing ES UI turing-ui## 로그인 환영 서비스## 콘솔링 서브 콘솔## 검색 서브 sn## 채팅 봇 서브 대화
MariaDB, Solr 및 Nginx를 사용하여 Turing ES를 시작할 수 있습니다.
도커 작성
관리 콘솔: http://localhost:2700. (관리자/관리자)
의미 체계 탐색 샘플: http://localhost:2700/sn/Sample.
그림 1. Turing ES 아키텍처
Turing은 다음 공급자를 지원합니다.
Apache OpenNLP는 자연어 텍스트 처리를 위한 기계 학습 기반 툴킷입니다.
웹사이트: https://opennlp.apache.org/
더 나은 의사 결정과 정보 관리를 위해 데이터를 통찰력으로 변환하는 동시에 리소스와 시간을 확보합니다.
웹사이트: https://www.opentext.com/
CoreNLP는 Java 자연어 처리를 위한 원스톱 상점입니다! CoreNLP를 사용하면 사용자는 토큰 및 문장 경계, 품사, 명명된 엔터티, 숫자 및 시간 값, 종속성 및 구성 구문 분석, 상호 참조, 감정, 인용 속성 및 관계를 포함하여 텍스트에 대한 언어 주석을 파생할 수 있습니다. CoreNLP는 현재 아랍어, 중국어, 영어, 프랑스어, 독일어, 스페인어 등 6개 언어를 지원합니다.
웹사이트: https://stanfordnlp.github.io/CoreNLP/,
Python의 자연어 처리를 위한 무료 오픈 소스 라이브러리입니다. NER, POS 태깅, 종속성 구문 분석, 단어 벡터 등이 특징입니다.
홈페이지: https://spacy.io
Polyglot은 대규모 다국어 애플리케이션을 지원하는 자연어 파이프라인입니다.
웹사이트: https://polyglot.readthedocs.io
PDF와 문서를 읽고 일반 텍스트로 변환할 수 있으며, OCR을 사용하여 이미지의 텍스트와 이미지를 문서로 감지합니다.
의미론적 탐색은 커넥터를 사용하여 다양한 소스의 콘텐츠를 색인화합니다.
크롤러를 사용하여 콘텐츠를 색인화하는 Apache Nutch용 플러그인입니다.
https://docs.viglet.com/turing/connectors/#nutch에서 자세히 알아보세요.
sqoop(https://sqoop.apache.org/)과 동일한 개념을 사용하여 복잡한 쿼리를 생성하고 결과에 따라 속성을 인덱스에 매핑하는 명령줄입니다.
https://docs.viglet.com/turing/connectors/#database에서 자세히 알아보세요.
OCR을 통해 이미지를 포함하여 Word, Excel, PDF와 같은 파일에서 텍스트를 추출하여 파일을 색인화하는 명령줄입니다.
https://docs.viglet.com/turing/connectors/#file-system에서 자세히 알아보세요.
Viglet Turing에 콘텐츠를 게시하기 위한 OpenText WEM Listener.
https://docs.viglet.com/turing/connectors/#wem에서 자세히 알아보세요.
게시물을 색인화할 수 있는 WordPress 플러그인입니다.
https://docs.viglet.com/turing/connectors/#wordpress에서 자세히 알아보세요.
NLP를 사용하면 다음과 같은 엔터티를 감지할 수 있습니다.
사람들
장소
조직
돈
시간
백분율
탐색용 필터로 사용될 속성을 정의하여 디스플레이의 전체 콘텐츠를 통합합니다.
콘텐츠에 정의된 속성을 통해 사용자 프로필에 따라 표시를 제한하는 것이 가능합니다.
Java API(https://github.com/openturing/turing-java-sdk)는 복잡한 쿼리가 포함된 소비자 검색 콘텐츠 없이 Viglet Turing ES에 대한 사용 및 액세스를 용이하게 합니다.
고객과 소통하고 복잡한 의도를 정교하게 만들고, 보고서를 얻고, 상호작용을 점진적으로 발전시키세요.
구성 요소:
최종 사용자와의 대화를 처리합니다. 인간 언어의 뉘앙스를 이해하는 자연어 처리 모듈입니다.
의도는 대화 교대를 위한 최종 사용자의 의도를 분류합니다. 각 에이전트에 대해 결합된 인텐트가 전체 대화를 처리할 수 있는 여러 인텐트를 정의합니다.
액션 필드는 서비스에서 로직을 실행하는 데 도움을 주는 간단한 편의 필드입니다.
각 인텐트 매개변수에는 최종 사용자 표현의 데이터가 추출되는 방식을 정확하게 지정하는 엔터티 유형이라는 유형이 있습니다.
의도를 정의하고 수정합니다.
대화 기록 및 보고서를 표시합니다.
Turing ES는 OCR 및 NLP를 사용하여 OpenText Blazon 문서의 엔터티를 감지하고 Blazon XML을 생성하여 엔터티를 문서에 표시합니다.
Turing ES에는 검색 엔진, NLP, Converse(채팅 봇), 시맨틱 탐색 등 많은 구성 요소가 있습니다.
Turing ES에 접속하면 로그인 페이지가 나타납니다. 기본적으로 로그인/비밀번호는 admin
/ admin
입니다.
그림 2. 로그인 페이지
검색 엔진은 Turing에서 Converse(채팅 봇) 및 시맨틱 탐색 사이트의 데이터를 저장하고 검색하는 데 사용됩니다.
그림 3. 검색 엔진 페이지
다음 속성을 사용하여 검색 엔진을 생성하거나 편집할 수 있습니다.
기인하다 | 설명 |
---|---|
이름 | 검색 엔진 이름 |
설명 | 검색엔진 설명 |
공급업체 | 검색 엔진 공급업체를 선택합니다. 현재는 Solr만 지원합니다. |
주인 | 검색 엔진 서비스가 설치된 호스트 이름 |
포트 | 검색 엔진 서비스 포트 |
언어 | 검색 엔진 서비스의 언어. |
활성화됨 | 검색 엔진이 활성화된 경우. |
그림 4. 의미론적 탐색 페이지
시맨틱 탐색 사이트의 세부정보에는 다음 속성이 포함됩니다.
기인하다 | 설명 |
---|---|
이름 | 의미론적 탐색 사이트의 이름입니다. |
설명 | 시맨틱 네비게이션 사이트에 대한 설명입니다. |
검색 엔진 | 검색 엔진 섹션에서 생성된 검색 엔진을 선택합니다. 시맨틱 탐색 사이트는 이 검색 엔진을 사용하여 데이터를 저장하고 검색합니다. |
NLP | NLP 섹션에서 생성된 NLP를 선택합니다. 시맨틱 탐색 사이트는 이 NLP를 사용하여 인덱싱 중에 엔터티를 감지합니다. |
시소러스 | 동의어 사전을 사용하는 경우. |
언어 | 의미론적 탐색 사이트의 언어. |
핵심 | 데이터를 저장하고 검색할 검색 엔진의 핵심 이름입니다. |
필드 탭에는 다음 열이 있는 테이블이 포함되어 있습니다. . 의미 탐색 사이트 필드 열
열 이름 | 설명 |
---|---|
유형 | 필드 유형. 다음과 같을 수 있습니다: - NLP에서 사용되는 NER(명명된 엔터티 인식). - Solr에서 사용하는 검색 엔진. |
필드 | 필드 이름. |
활성화됨 | 필드가 활성화되어 있는지 여부. |
MLT | 이 필드가 MLT에서 사용되는 경우. |
패싯 | 이 필드를 패싯(필터)처럼 사용하려면 |
강조 | 이 필드에 강조 표시된 줄이 표시됩니다. |
NLP | 이 필드가 NLP에 의해 처리되어 사람, 조직 및 장소와 같은 엔터티(NER)를 감지합니다. |
필드를 클릭하면 다음 속성이 포함된 필드 세부 정보가 포함된 새 페이지가 나타납니다.
기인하다 | 설명 |
---|---|
이름 | 분야명 |
설명 | 분야 설명 |
유형 | 필드 유형. |
다중 가치 | 배열인 경우 |
패싯 이름 | 검색 페이지의 패싯(필터) 레이블 이름입니다. |
한 면 | 이 필드를 패싯(필터)처럼 사용하려면 |
강조 | 이 필드에 강조 표시된 줄이 표시됩니다. |
MLT | 이 필드가 MLT에서 사용되는 경우. |
활성화됨 | 필드가 활성화된 경우. |
필수의 | 필드가 필수인 경우. |
기본값 | 이러한 필드 없이 콘텐츠가 색인화되는 경우, 이것이 기본값입니다. |
NLP | 이 필드가 NLP에 의해 처리되어 사람, 조직 및 장소와 같은 엔터티(NER)를 감지합니다. |
다음 속성을 포함합니다.
부분 | 기인하다 | 설명 |
---|---|---|
모습 | 페이지당 항목 수 | 검색에 나타날 항목 수입니다. |
한 면 | 패싯이 활성화되었나요? | 검색 시 패싯(필터)이 표시됩니다. |
패싯당 항목 수 | 각 패싯(필터)에 표시될 항목 수입니다. | |
강조 | 강조표시가 활성화되었나요? | 강조 표시된 라인을 표시할지 여부를 정의합니다. |
사전 태그 | 학기초에 사용될 HTML 태그입니다. 예: <마크> | |
게시물 태그 | 학기 말에 사용될 HTML 태그입니다. 예: | |
MLT | 이와 유사한 항목이 더 많이 활성화되어 있습니까? | MLT 표시 여부 정의 |
기본 필드 | 제목 | Solr Schema.xml에 정의된 제목으로 사용될 필드입니다. |
텍스트 | Solr Schema.xml에 정의된 제목으로 사용될 필드입니다. | |
설명 | Solr Schema.xml에 정의된 설명으로 사용되는 필드입니다. | |
날짜 | Solr Schema.xml에 정의된 날짜로 사용될 필드입니다. | |
영상 | Solr Schema.xml에 정의된 이미지 URL로 사용될 필드입니다. | |
URL | Solr Schema.xml에 정의된 URL로 사용될 필드입니다. |
Turing ES Console
> Semantic Navigation
>
에서 Configure
버튼을 클릭하고 Search Page
버튼을 클릭합니다.
다음 패턴을 사용하는 검색 페이지가 열립니다.
http://localhost:2700/sn/가져오기
이 페이지는 AJAX를 통해 Turing Rest API를 요청합니다. 예를 들어 Semantic Navigation Site의 모든 결과를 JSON 형식으로 반환하려면 다음을 수행하세요.
GET http://localhost:2700/api/sn//search?p=1&q=*&sort=relevance
기인하다 | 필수 / 선택 | 설명 | 예 |
---|---|---|---|
큐 | 필수의 | 검색어. | q=foo |
피 | 필수의 | 페이지 번호, 첫 번째 페이지는 1입니다. | p=1 |
종류 | 필수의 | 값 정렬: | 정렬=관련성 |
fq[] | 선택 과목 | 쿼리 필드. FIELD : VALUE 패턴을 사용하여 필드별로 필터링합니다. | fq[]=제목:바 |
트[] | 선택 과목 | 타겟팅 규칙. FIELD : VALUE 기준으로 검색을 제한합니다. | tr[]=부서:foobar |
행 | 선택 과목 | 쿼리가 반환할 행 수입니다. | 행=10 |
보험 회사의 인트라넷에서는 동적 포털 모듈과 통합된 OpenText WEM 및 OpenText Portal을 사용하고 WEM, 파일 시스템이 포함된 데이터베이스 커넥터를 사용하여 Viglet Turing ES에서 통합 검색이 생성되었습니다. 이러한 방식으로 타겟팅 규칙을 사용하여 검색 인트라넷의 모든 콘텐츠와 파일을 표시할 수 있었고 사용자에게 권한이 있는 콘텐츠만 표시할 수 있었습니다. OpenText Portal은 Viglet Turing ES Java API에 액세스하므로 결과를 반환하기 위해 복잡한 쿼리를 생성할 필요가 없었습니다.
파트너가 모든 정부 회사 콘텐츠를 사용할 수 있도록 API Rest 세트가 생성되었습니다. 이러한 모든 콘텐츠는 OpenText WEM에 있으며 WEM 커넥터는 Viglet Turing ES의 콘텐츠를 색인화하는 데 사용되었습니다. Viglet Turing ES Java API를 통해 Turing ES 콘텐츠를 사용하는 Rest API 세트를 사용하여 Spring Boot 애플리케이션이 생성되었습니다.
브라질대학교 웹사이트는 Viglet Shio CMS(https://viglet.com/shio)를 이용하여 개발되었으며, 모든 콘텐츠는 Viglet Turing ES에 자동으로 색인됩니다. 이러한 구성은 컨텐츠 모델링에서 이루어졌고, 검색 템플릿 개발은 Viglet Shio CMS에서 이루어졌습니다.