센타(Senta)는 바이두(Baidu)가 개발한 오픈소스 감성 분석 시스템이다.
감성분석은 텍스트에 담긴 성향, 입장, 평가, 의견 등 주관적인 정보를 자동으로 파악하고 추출하는 것을 목표로 합니다. 문장 수준 감정 분류, 평가 대상 수준 감정 분류, 의견 추출, 감정 분류 등 다양한 작업을 포함합니다. 감성분석은 인공지능의 중요한 연구 방향으로 학술적 가치가 높다. 동시에 감정 분석은 소비자 의사 결정, 여론 분석, 개인화 추천 및 기타 분야에서 중요한 응용 프로그램을 가지며 높은 상업적 가치를 가지고 있습니다.
최근 바이두는 감성 사전 훈련 모델 SKEP(Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis)를 공식 출시했습니다. SKEP는 감정 지식을 사용하여 사전 훈련 모델을 강화하고 14개의 일반적인 중국어 및 영어 감정 분석 작업에서 SOTA를 능가합니다. 이 작업은 ACL 2020에서 승인되었습니다.
R&D 인력과 비즈니스 파트너가 최첨단 감성 분석 기술을 공유할 수 있도록 Baidu는 Senta에 SKEP 기반 감성 사전 학습 코드와 중국어 및 영어 감성 사전 학습 모델을 오픈소스화했습니다. 또한 Baidu는 사용자 임계값을 더욱 낮추기 위해 산업화를 위한 원클릭 감정 분석 및 예측 도구를 SKEP 오픈 소스 프로젝트에 통합했습니다. 사용자는 SKEP 기반 감정 사전 훈련 및 모델 예측 기능을 구현하는 데 몇 줄의 코드만 필요합니다.
SKEP
SKEP은 바이두 연구팀이 제안한 감성 지식 향상을 기반으로 한 감성 사전 훈련 알고리즘입니다. 이 알고리즘은 비지도 방식을 사용하여 감정 지식을 자동으로 마이닝한 후 감정 지식을 사용하여 사전 훈련 목표를 구성합니다. 감정적 의미를 이해하는 법을 배울 수 있습니다. SKEP은 다양한 감정 분석 작업에 대한 통합되고 강력한 감정 의미론적 표현을 제공합니다.
바이두 연구팀은 문장 수준 감정 분류, 측면 수준 감정 분류, 의견 역할 라벨링 등 3가지 대표적인 감정 분석 작업을 수행했으며, 총 14개의 중국어 및 영어 데이터를 통해 감정 사전 훈련의 효과를 추가로 검증했습니다. 모델 SKEP. 실험 결과, 일반 사전 훈련 모델인 ERNIE(내부)를 초기화로 사용한 SKEP는 ERNIE에 비해 평균 약 1.2%, 원본 SOTA에 비해 평균 약 2% 향상되는 것으로 나타났습니다.