Команда ЛеКуна и Се Сенина выпустила впечатляющую мультимодальную крупномасштабную языковую модель Cambrian-1, которая представляет собой инновационную работу, в которой видение ставится на первое место. Это не только технологический прорыв, но и новый подход к исследованию мультимодального обучения. Его открытый исходный код предоставляет ценные ресурсы для исследователей и разработчиков. Конструкция Cambrian-1 вращается вокруг пяти основных элементов: обучение визуальному представлению, конструкция разъема, данные для точной настройки инструкций, стратегия точной настройки инструкций и контрольное тестирование. Он хорошо справляется с задачами визуального языка и даже сравним с некоторыми ведущими патентованными моделями. . Однако исследовательская группа также откровенно указала на недостатки модели в возможностях диалога и активно отреагировала на это улучшением методов обучения.
В мире искусственного интеллекта мы только что приветствовали привлекательного нового члена — Cambrian-1, мультимодальную модель большого языка (MLLM), совместно созданную такими гигантами отрасли, как LeCun и Xie Saining. Появление этой модели — это не только технологический скачок, но и глубокое размышление об исследованиях мультимодального обучения.
Философия дизайна Cambrian-1 ставит видение на первое место, что особенно ценно в современных исследованиях искусственного интеллекта, ориентированных на язык. Это напоминает нам, что язык — не единственный способ приобретения знаний для людей, и сенсорный опыт, такой как зрение, слух и осязание, не менее важен. Открытый исходный код Cambrian-1 предоставляет ценный ресурс для всех исследователей и разработчиков, заинтересованных в мультимодальном обучении.
Построение этой модели вращается вокруг пяти основных элементов: обучение визуальному представлению, конструкция соединителя, данные для точной настройки инструкций, стратегия точной настройки инструкций и эталонное тестирование. Каждый элемент представляет собой углубленное исследование пространства дизайна MLLM и отражает уникальное понимание существующих проблем исследовательской группой.
Стоит отметить, что производительность Cambrian-1 при решении задач визуального языка впечатляет. Он не только превосходит другие модели с открытым исходным кодом, но и соответствует лучшим в отрасли проприетарным моделям по некоторым показателям. За этим достижением стоит новаторский подход исследовательской группы к точной настройке инструкций и дизайну разъемов.
Однако путь исследований кембрия-1 не был гладким. Исследователи обнаружили, что даже хорошо обученные MLLM могут иметь недостатки в разговорных способностях — явление, известное как «феномен автоответчика». Чтобы решить эту проблему, они добавили в обучение системные подсказки, побуждающие модель участвовать в более насыщенном разговоре.
Успех «Кембрия-1» неотделим от стоящей за ним сильной исследовательской группы. Среди них Шэнбан Тонг является одним из авторов статьи, и его вклад нельзя игнорировать. В настоящее время он учится на докторскую степень в Нью-Йоркском университете под руководством профессора Янна Лекуна и профессора Се Сайнина. Его исследовательские интересы охватывают модели мира, обучение без учителя/самоконтроля, генеративные модели и мультимодальные модели.
Открытый исходный код Cambrian-1 приносит глоток свежего воздуха в сообщество искусственного интеллекта. Он не только предоставляет мощный инструмент мультимодального обучения, но и вдохновляет людей глубоко задуматься об исследованиях мультимодального обучения. Поскольку все больше и больше исследователей и разработчиков присоединяются к исследованию Кембрия-1, у нас есть основания полагать, что он станет важной силой, способствующей развитию технологий искусственного интеллекта.
Адрес проекта: https://github.com/cambrian-mllm/cambrian
Статья: https://arxiv.org/abs/2406.16860.
Появление Cambrian-1 открыло новые возможности в области мультимодального искусственного интеллекта, а его открытый исходный код также способствует более широкому сотрудничеству и инновациям. Мы с нетерпением ожидаем, что «Кембрий-1» сможет продемонстрировать свои мощные возможности в большем количестве областей в будущем и способствовать дальнейшему развитию технологий искусственного интеллекта.