Amazon 연구팀은 일반 쇼핑 보조자로서 LLM(대형 언어 모델)의 잠재력을 종합적으로 평가하기 위해 설계된 실제 Amazon 데이터를 기반으로 한 멀티 태스크 온라인 쇼핑 벤치마크인 Shopping MMLU를 출시했습니다. 벤치마크에는 개념 이해, 지식 추론, 사용자 행동 정렬, 다국어 기능 등 4개 모듈로 구성된 57개 작업이 포함되어 있어 AI 비서가 실제 쇼핑 가이드처럼 사용자 요구를 이해하고 정확한 서비스를 제공할 수 있는지 테스트합니다. 쇼핑 MMLU는 20개 이상의 AI 모델을 테스트함으로써 온라인 쇼핑의 다중 작업 학습 특성을 밝히고 지침 미세 조정의 과적합, 소수 샷의 어려움 등 특정 분야에 적용할 때 기존 AI 모델이 직면하는 과제를 지적합니다. 학습. .
머신러닝은 이미 다양한 온라인 서비스에 침투해 있으며, 온라인 쇼핑은 가장 성공적인 분야 중 하나입니다. 최근에는 사용자 쿼리, 검색 기록, 리뷰 분석, 상품 속성 추출 등 다양한 온라인 쇼핑 업무에 머신러닝이 적용되고 있습니다. 기계 학습 방법의 개발을 촉진하기 위해 연구자와 엔지니어가 실제 온라인 쇼핑 작업에 대한 새로운 솔루션을 개발하고 평가하는 문턱을 낮추기 위해 많은 벤치마크가 개발되었습니다.
그러나 기존 모델과 벤치마크는 특정 작업에 맞게 조정되는 경우가 많으며 온라인 쇼핑의 복잡성을 완전히 포착할 수 없습니다. 다중 작업 및 몇 번의 학습 기능을 갖춘 LLM(대형 언어 모델)은 특정 작업에 대한 엔지니어링 노력을 줄이고 사용자에게 대화형 대화를 제공함으로써 온라인 쇼핑 경험에 혁명을 일으킬 수 있는 잠재력을 가지고 있습니다. 큰 잠재력에도 불구하고 대규모 언어 모델은 도메인별 쇼핑 개념, 암묵적 지식, 이질적인 사용자 행동과 같은 온라인 쇼핑 도메인에서 고유한 문제에 직면해 있습니다.
이러한 문제를 해결하기 위해 Amazon 연구진은 실제 Amazon 데이터를 기반으로 한 멀티 태스킹 온라인 쇼핑 벤치마크인 Shopping MMLU를 제안했습니다. 쇼핑 MMLU에는 개념 이해, 지식 추론, 사용자 행동 정렬, 다국어 기능 등 4가지 주요 쇼핑 기술을 포괄하는 57개 작업이 포함되어 있으므로 범용 쇼핑 도우미로서 대규모 언어 모델의 잠재력을 종합적으로 평가할 수 있습니다.
이 쇼핑 MMLU는 일반적인 "시험"이 아닙니다. 개념 이해, 지식 추론, 사용자 행동 정렬 및 다중 언어 기능이라는 네 가지 주요 모듈을 다루는 실제 Amazon 쇼핑 데이터에서 57개의 작업을 추출합니다. 쉽게 말하면, 실제 쇼핑 가이드처럼 AI 도우미가 당신의 요구사항을 파악하고, 원하는 아기를 찾을 수 있도록 도와줄 수 있는지 살펴보는 것이다.
Amazon 연구진은 Shopping MMLU를 사용하여 20개 이상의 기존 AI 모델을 테스트한 결과 다음과 같은 사실을 발견했습니다.
Claude-3Sonnet 및 ChatGPT와 같은 잘 알려진 독점 AI 모델은 정말 좋은 성능을 발휘하며 확고하게 첫 번째 단계에 있습니다. 그러나 오픈소스 AI 모델도 따라잡아 '권위'에 도전하는 기세를 보이고 있다.
쇼핑 MMLU의 테스트 결과에서도 흥미로운 현상이 드러났습니다. 온라인 쇼핑은 실제로 다중 작업 학습 문제입니다. 즉, AI 비서가 업무를 수행하려면 여러 기술을 동시에 마스터해야 한다.
더욱 놀라운 점은 일반 분야에서 좋은 성능을 발휘하는 AI 모델이 온라인 쇼핑 분야에서도 똑같이 뛰어나다는 점입니다. 이는 AI 비서가 일반 지식을 특정 분야에 전달하고 새로운 기술을 빠르게 학습할 수 있음을 보여준다.
물론 AI 비서가 본질적으로 완벽하지는 않습니다. 연구원들은 지침 미세 조정(IFT)과 같이 일반적으로 사용되는 일부 AI 훈련 방법이 경우에 따라 모델 과적합으로 이어질 수 있으며, 이는 결과적으로 성능에 영향을 미칠 수 있음을 발견했습니다.
또한 퓨샷 학습(Few-Shot Learning)도 AI 보조원이 직면한 주요 과제입니다. 이는 AI 보조원이 새로운 작업에 직면했을 때 빠르게 학습해야 하며 항상 많은 양의 훈련 데이터에 의존할 수 없다는 것을 의미합니다.
한마디로 아마존의 쇼핑 MMLU 벤치마크는 AI 비서 개발 방향을 제시하는 셈이다. 앞으로는 우리의 쇼핑 경험을 더욱 편리하고 즐겁게 만들어 줄 더욱 스마트하고 인간적인 온라인 쇼핑 AI 비서가 등장할 것으로 기대됩니다.
연구원들은 또한 주목할 만한 몇 가지 세부 사항을 발견했습니다.
쇼핑 MMLU는 기존의 다른 온라인 쇼핑 AI 데이터세트보다 더 복잡하고 까다롭습니다.
도메인별 지침을 미세 조정하는 것이 항상 잘 작동하는 것은 아니며 이미 많은 일반 지식을 갖고 있는 강력한 모델에서만 작동합니다.
현재 가장 발전된 AI 모델이라도 특정 온라인 쇼핑 작업에서는 이러한 작업을 위해 특별히 설계된 알고리즘만큼 좋은 성능을 발휘하지 못합니다.
본 연구 결과는 완벽한 온라인 쇼핑 AI 비서를 구축하려면 아직 갈 길이 멀다는 것을 보여줍니다. 향후 연구 방향에는 보다 효과적인 AI 훈련 방법 개발, 보다 다양한 온라인 쇼핑 AI 데이터 세트 구축, AI 모델과 작업별 알고리즘을 결합하여 보다 강력한 하이브리드 AI 시스템 구축 등이 포함됩니다.
마지막으로 연구자들은 연구의 몇 가지 한계도 솔직하게 지적했습니다.
Shopping MMLU의 데이터는 주로 Amazon에서 제공되며 다른 전자상거래 플랫폼의 사용자 행동을 완전히 나타내지 못할 수도 있습니다.
이를 방지하기 위한 연구자들의 노력에도 불구하고 쇼핑 MMLU의 데이터에는 여전히 일부 오류가 포함될 수 있습니다.
전체적으로, 이 Amazon 연구는 스마트 쇼핑의 미래 시대를 여는 문을 열어줍니다. 나는 가까운 미래에 온라인 쇼핑 AI 비서가 우리 삶에 없어서는 안 될 부분이 될 것이라고 믿습니다.
논문 주소: https://arxiv.org/pdf/2410.20745
데이터 및 평가 코드:
https://github.com/KL4805/ShoppingMMLU
KDD 컵 2024 워크숍 및 우승팀의 솔루션:
https://amazon-kddcup24.github.io/
평가 목록:
https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard
Amazon에서 출시한 Shopping MMLU 벤치마크 테스트를 통해 온라인 쇼핑 분야의 대규모 언어 모델의 현재 적용 현황과 향후 개발 방향을 보다 명확하게 이해할 수 있습니다. 이번 연구는 AI 모델 개선을 위한 귀중한 참고 자료를 제공할 뿐만 아니라, 사용자의 온라인 쇼핑 경험을 향상시킬 수 있는 방법을 제시하여 보다 지능적이고 편리한 쇼핑 시대의 도래를 예고합니다.