AI가 빠르게 발전하는 시대, 훈련의 핵심은 데이터다. 그러나 AI 훈련과 양립할 수 없을 것 같았던 온라인 커뮤니티인 바이두 티에바(Baidu Tieba)의 Mentally Retarded Bar가 뜻밖에도 AI 훈련을 위한 중요한 데이터 소스가 되면서 폭넓은 논의와 우려를 불러일으켰습니다. 이 커뮤니티는 터무니없는 유머로 유명합니다. AI 훈련에서 데이터의 특별한 가치는 고품질 데이터에 대한 사람들의 전통적인 이해를 전복시키고 인공 지능 학습 메커니즘에 대한 심층적인 사고를 촉발시켰습니다.
오늘날 인공 지능의 급속한 발전과 함께 눈에 띄지 않는 온라인 커뮤니티인 Baidu Tieba의 Mentally Retarded Bar는 예기치 않게 AI 훈련을 위한 중요한 데이터 소스가 되어 기술계와 온라인 커뮤니티에서 광범위한 관심을 끌고 있습니다. 터무니없는 유머로 가득한 이 커뮤니티는 AI 훈련에서 놀라운 가치를 보여주었습니다. 사람들은 이렇게 생각하게 됩니다. 이 지체된 발언이 지능의 요람이 되는 이유는 무엇일까요?
올해 4월 중국과학원과 워털루대학교 등 여러 기관이 공동으로 발표한 연구 결과는 충격적이었다. 질문과 답변, 브레인스토밍, 분류, 생성, 요약을 포함한 8가지 테스트에서 Zhiba의 성능은 Encyclopedia, Zhihu, Douban, Xiaohongshu 등 잘 알려진 플랫폼을 능가하여 가장 인기 있는 중국 AI 훈련 데이터베이스 중 하나가 되었습니다. 이 발견은 고품질 데이터에 대한 사람들의 전통적인 이해를 뒤집었습니다.
최근 Bund 컨퍼런스에서 Retarded Bar의 핵심 멤버들이 처음으로 공개적으로 등장했습니다. 그들은 AI에 도전했을 뿐만 아니라 이 독특한 커뮤니티의 진정한 모습을 공개했습니다. Unbounded Ark의 CEO Zeng Xiaodong은 훈련 코퍼스로 Mentally Retarded Bar를 선택한 이유를 다음과 같이 설명했습니다. AI를 인간에게 더 가깝게 만들기 위해서는 구어체 언어와 여러 차례의 질의응답 코퍼스가 필요하며, Mentally Retarded Bar는 다음과 같습니다. Bar는 이러한 요구를 충족합니다.
Mentally Retarded Bar의 핵심 멤버인 Hu Luobei는 AI에 대한 그의 흥미로운 경험을 공유했습니다. 그는 2022년 초 AI가 일부 농담을 해석하도록 하려고 시도했지만 AI가 관련 정보를 검색할 수는 있지만 농담의 진정한 의미를 이해할 수 없다는 사실을 발견했습니다. 이는 인간의 유머를 이해하는 데 있어 AI의 한계를 강조합니다.
그러나 이러한 터무니없어 보이는 농담 뒤에는 심오한 논리가 숨어 있습니다. 예를 들어, “산에 호랑이가 있는 줄 알면서 산에 가지 말라”는 문장은 “알고”라는 단어를 교묘하게 해체하고 재구성하여 새로운 의미를 만들어낸다. AI가 중국어를 이해하고 추론하는 능력을 훈련시켜 기계가 인간처럼 의사소통할 수 있게 하는 것은 바로 이러한 언어 함정입니다.
리타디드바의 매력은 농담 속에 기초과학이 담겨 있다는 점이다. 이 커뮤니티의 구성원 대부분은 과학적인 배경을 가지고 있습니다. 그들이 만드는 농담은 논리적으로 엄격할 뿐만 아니라 풍부한 수사법과 삶의 관찰을 포함합니다. 이 독특한 창의적 방법은 AI에 대한 귀중한 학습 자료를 제공합니다.
흥미롭게도 정신지체자 바의 존재는 인간과 AI 사이의 방어선이 된 것 같다. Hu Luobei가 말했듯이: AI는 유머를 전혀 이해하지 못하기 때문에 그 지체를 웃어 넘길 수 없습니다. 이러한 깊은 언어 이해와 유머 감각은 인간 지능과 인공 지능을 구별하는 열쇠가 됩니다.
AI로 둘러싸인 시대에 살고 있음에도 불구하고 Mental Bar의 존재는 인간의 창의성과 유머가 여전히 독특하다는 것을 일깨워줍니다. 터무니 없어 보이는 이 커뮤니티는 AI 훈련에 대한 독특한 관점을 제공할 뿐만 아니라 인간의 지혜와 창의성의 축소판이 됩니다.
Retarded Bar의 사례는 우리에게 AI 훈련 데이터의 원천을 다시 생각하게 했고, 인공지능 시대에도 여전히 빛나고 있는 인간 지혜의 광채를 볼 수 있게 해주었습니다. 이는 쓸모 없어 보이는 데이터가 특정 상황에서는 예상치 못한 큰 가치를 가질 수도 있음을 증명합니다. 앞으로는 AI 기술 발전을 촉진할 예상치 못한 데이터 소스가 더 많아질 수도 있다.