AI 분야에는 거물이 많고 경쟁도 치열하다. 그러나 불과 10명으로 구성된 스타트업 회사인 누스리서치는 탄탄한 기술력과 오픈소스 개념을 앞세워 거대 기술기업의 권위에 성공적으로 도전했다. 새로 출시된 Hermes3 모델은 Llama 3.1을 기반으로 미세 조정되었으며 405B의 매개변수 크기와 놀라운 성능으로 3,300만 번 이상 다운로드되어 AI 업계에서 경이로운 제품이 되었습니다. 이번 글에서는 Hermes3 모델의 뛰어난 성능과 효율적인 훈련 방법, 그리고 Nous Research의 혁신 정신을 자세히 살펴보겠습니다.
불과 10명으로 구성된 작은 팀이 거대 기술기업 메타의 위상에 도전했습니다. 이것은 그야말로 다윗이 골리앗을 물리치는 실화입니다!
Nous Research라는 스타트업은 무명인이 아닙니다. 방금 출시한 Hermes3는 Llama3.1의 405B 모델을 기반으로 미세 조정되었습니다. 팀의 인원은 적지만 그들의 힘은 과소평가될 수 없습니다. 10명으로 구성된 이 팀은 미스트랄(Mistral), 이(Yi), 라마(Llama) 등 여러 모델을 성공적으로 미세 조정했으며, 3,300만 번 이상 다운로드되었습니다. 그야말로 AI 업계에서 인기 있는 기계입니다!
에르메스3의 등장은 AI계의 팔짱을 끼고 있는 셈이다. FP8 양자화 후에도 그 성능은 여전히 놀라울 정도로 강력합니다. 이러한 최적화를 통해 모델의 VRAM 및 디스크 요구 사항이 크게 줄어들 뿐만 아니라 Hermes3가 단일 노드에서 실행될 수 있게 되어 개발자에게 좋은 소식이 됩니다!
대화 능력 측면에서 보면 Hermes3는 그야말로 만능 제품입니다. 장기 기억, 여러 차례의 대화, 역할극, 내부 독백 등 무엇이든 쉽게 처리할 수 있습니다. Llama3.1의 128K 컨텍스트 창 덕분에 Hermes3는 대화의 일관성을 유지하는 노련한 외교관입니다.
하지만 Hermes3의 기능은 여기서 끝나지 않습니다. 생성된 텍스트의 품질을 정교하고 미묘한 방식으로 이해하고 평가하기 위해 전통적인 언어 모델링을 뛰어 넘는 일련의 고급 기능을 보여줍니다. 이는 유창한 연설가일 뿐만 아니라 엄격한 텍스트 비평가가 될 수도 있다는 것을 의미합니다!
더욱 놀라운 점은 Hermes3가 구조화된 출력, 중간 단계 출력, 내부 독백 생성 등 여러 에이전트 기능을 통합하여 투명한 의사결정을 실현한다는 점입니다. 이는 마치 AI에게 투명한 뇌를 장착해 AI의 사고 과정을 엿볼 수 있게 해주는 것과 같습니다.
헤르메스3의 훈련과정은 AI계에서 악마적인 훈련이라 할 수 있다. SFT(감독 미세 조정)와 DPO(직접 선호 최적화)의 두 단계를 거쳤습니다. 팀은 SFT 데이터 세트를 검사하고 구축하는 데 5개월을 보냈으며, 그들의 헌신과 인내심은 정말 경외감을 불러일으킵니다.
2023년 설립돼 뉴욕에 본부를 둔 민간 응용연구그룹 누스리서치(Nous Research)는 단순히 AI 세계의 야만적 침략자일 뿐이다. 이들은 오픈 소스의 힘을 굳게 믿으며 폐쇄형 기술의 혁신 한계에 도전할 것을 다짐합니다. 회사의 슬로건은 매우 뜨겁습니다. 폐쇄형 기술이 항상 혁신의 정점을 차지하고 대신 강력한 오픈 소스 코드를 제공한다는 가정에 도전합니다.
Nous Research는 단 1년 만에 5개의 데이터 세트와 89개의 모델을 출시했습니다. 이 높은 결과는 크기가 중요하지 않으며 힘이 왕이라는 사실을 세계에 선언하는 것 같습니다.
논문 주소: https://nousresearch.com/wp-content/uploads/2024/08/Hermes-3-Technical-Report.pdf
공식 소개: https://nousresearch.com/freedom-at-the-frontier-hermes-3/
Nous Research와 Hermes3의 성공은 오픈소스의 힘을 입증했을 뿐만 아니라 AI 분야에 새로운 활력과 가능성을 가져왔습니다. 소규모 팀도 기적을 일으킬 수 있으며 이는 의심할 여지 없이 모든 AI 실무자에게 큰 격려가 됩니다. 앞으로는 Nous Research가 어떤 놀라운 결과를 가져올지 기다려 보도록 하겠습니다.