절강대학교 컴퓨팅 혁신 연구소 연구팀은 표 형식 데이터를 처리하는 데 있어 대규모 언어 모델의 능력이 부족한 문제를 해결하는 데 돌파구를 마련하고 새로운 모델인 TableGPT2를 출시했습니다. TableGPT2는 고유한 테이블 인코더를 통해 다양한 테이블 데이터를 효율적으로 처리하여 비즈니스 인텔리전스(BI)와 같은 데이터 기반 애플리케이션에 혁신적인 변화를 가져올 수 있습니다. Downcodes의 편집자는 TableGPT2의 혁신과 향후 개발 방향에 대해 자세히 설명할 것입니다.
LLM(대형 언어 모델)의 등장은 인공 지능 애플리케이션에 혁명적인 변화를 가져왔지만 표 형식 데이터를 처리하는 데에는 분명한 단점이 있습니다. 이 문제를 해결하기 위해 저장대학교 컴퓨팅 혁신 연구소의 연구팀은 테이블 형식 데이터를 직접적이고 효율적으로 통합하고 처리할 수 있는 TableGPT2라는 새로운 모델을 출시하여 비즈니스 인텔리전스(BI) 및 기타 데이터 기반의 새로운 길을 열었습니다. 새로운 가능성.
TableGPT2의 핵심 혁신은 테이블의 구조 정보와 셀 내용 정보를 캡처하도록 특별히 설계된 고유한 테이블 인코더에 있습니다. 이를 통해 실제 환경에서 흔히 발생하는 퍼지 쿼리, 누락된 열 이름 및 불규칙한 테이블을 처리하는 모델의 기능을 향상시킵니다. -세계 응용 프로그램. TableGPT2는 Qwen2.5 아키텍처를 기반으로 하며 593,800개 이상의 테이블과 236만 개의 고품질 쿼리-테이블-출력 튜플을 포함하는 대규모 사전 학습 및 미세 조정을 거쳤습니다. 이전 연구의 데이터.
TableGPT2의 코딩 및 추론 기능을 향상시키기 위해 연구원들은 지속적인 사전 훈련(CPT)을 수행했습니다. CPT에서는 데이터의 80%에 신중하게 주석을 추가하여 강력한 코딩 기능을 갖추고 있는지 확인했습니다. 또한, 모델의 추론 역량을 강화하기 위해 도메인별 지식이 담긴 다량의 추론 데이터와 교과서도 수집했다. 최종 CPT 데이터에는 엄격하게 필터링된 860억 개의 토큰이 포함되어 있으며, 이는 TableGPT2가 복잡한 BI 작업 및 기타 관련 작업을 처리하는 데 필요한 인코딩 및 추론 기능을 제공합니다.
특정 BI 작업 및 시나리오에 적응할 때 TableGPT2의 한계를 해결하기 위해 연구원들은 SFT(감독 미세 조정)를 수행했습니다. 그들은 여러 라운드의 대화, 복잡한 추론, 도구 사용 및 매우 비즈니스 지향적인 쿼리를 포함하여 다양한 중요 및 실제 시나리오를 포괄하는 데이터 세트를 구축했습니다. 데이터 세트는 수동 주석과 전문가 중심의 자동 주석 프로세스를 결합하여 데이터 품질과 관련성을 보장합니다. 총 236만 개의 샘플을 사용하는 SFT 프로세스는 BI 및 테이블과 관련된 기타 환경의 특정 요구 사항을 충족하도록 모델을 더욱 개선했습니다.
TableGPT2는 또한 전체 테이블을 입력으로 사용하고 각 열에 대한 컴팩트한 임베딩 벡터 세트를 생성하는 의미 체계 테이블 인코더를 혁신적으로 도입했습니다. 이 아키텍처는 테이블 형식 데이터의 고유한 속성에 맞게 사용자 정의되어 양방향 주의 메커니즘과 계층적 특징 추출 프로세스를 통해 행과 열 간의 관계를 효과적으로 캡처합니다. 또한 모델이 의미 있고 구조를 인식하는 표 형식의 의미 표현을 학습하도록 장려하기 위해 열형 대조 학습 방법이 채택되었습니다.
TableGPT2를 엔터프라이즈 수준의 데이터 분석 도구와 원활하게 통합하기 위해 연구원들은 에이전트 워크플로 런타임 프레임워크도 설계했습니다. 프레임워크는 런타임 힌트 엔지니어링, 보안 코드 샌드박스, 에이전트 평가 모듈이라는 세 가지 핵심 구성 요소로 구성되며, 이는 에이전트의 기능과 안정성을 함께 향상시킵니다. 워크플로는 에이전트 성능을 관리하고 모니터링하기 위해 함께 작동하는 모듈식 단계(입력 정규화, 에이전트 실행 및 도구 호출)를 통해 복잡한 데이터 분석 작업을 지원합니다. 효율적인 상황별 검색을 위한 RAG(검색 증강 생성)와 안전한 실행을 위한 코드 샌드박싱을 통합함으로써 프레임워크는 TableGPT2가 실제 문제에 대해 정확하고 상황에 맞는 통찰력을 제공하도록 보장합니다.
연구원들은 널리 사용되는 다양한 테이블 형식 및 범용 벤치마크에 대해 TableGPT2에 대한 광범위한 평가를 수행했습니다. 결과에 따르면 TableGPT2는 테이블 이해, 처리 및 추론에서 탁월하며 70억 개의 매개변수 모델에 대해 평균 성능이 35.20% 향상되었습니다. 1억 매개변수 모델의 평균 성능은 49.32% 증가한 동시에 강력한 일반 성능을 유지했습니다. 공정한 평가를 위해 TableGPT2를 Qwen 및 DeepSeek와 같은 오픈 소스, 벤치마크 중립 모델과만 비교하여 단일 벤치마크 테스트를 과대적합하지 않고 다양한 작업에서 모델의 균형 있고 다양한 성능을 보장했습니다. 또한 실제 시나리오와 보다 일관성을 유지하기 위해 틀에 얽매이지 않는 테이블, 익명 필드 및 복잡한 쿼리를 강조하는 새로운 벤치마크인 RealTabBench를 도입하고 부분적으로 출시했습니다.
TableGPT2는 실험에서 최첨단 성능을 달성했지만 LLM을 실제 BI 환경에 배포하는 데는 여전히 과제가 존재합니다. 연구원들은 향후 연구 방향이 다음과 같다고 언급했습니다.
도메인별 코딩: LLM을 통해 기업별 도메인별 언어(DSL) 또는 의사코드를 신속하게 조정하여 기업 데이터 인프라의 특정 요구 사항을 더 효과적으로 충족할 수 있습니다.
다중 에이전트 설계: 실제 응용 프로그램의 복잡성을 처리하기 위해 여러 LLM을 통합 시스템에 효과적으로 통합하는 방법을 탐색합니다.
다양한 테이블 처리: Excel 및 페이지에서 흔히 볼 수 있는 병합된 셀 및 일관되지 않은 구조와 같은 불규칙한 테이블을 처리하는 모델의 기능을 개선하여 실제 세계에서 다양한 형태의 테이블 형식 데이터를 더 잘 처리합니다.
TableGPT2의 출시는 LLM의 테이블 형식 데이터 처리 분야에서 상당한 진전을 이루었으며 비즈니스 인텔리전스 및 기타 데이터 기반 애플리케이션에 새로운 가능성을 가져왔습니다. 연구가 계속 심화됨에 따라 TableGPT2는 향후 데이터 분석 분야에서 점점 더 중요한 역할을 담당하게 될 것이라고 믿습니다.
논문 주소: https://arxiv.org/pdf/2411.02059v1
TableGPT2의 등장은 비즈니스 인텔리전스 분야에 새로운 시작을 가져왔습니다. 효율적인 테이블 데이터 처리 기능과 강력한 확장성은 데이터 분석이 앞으로 더욱 지능적이고 편리해질 것임을 나타냅니다. TableGPT2가 앞으로 더 널리 사용되고 각계각층에 더 많은 가치를 제공할 수 있기를 기대합니다.