Google Gemini 버전 2.0 공식 출시: 2.0 Flash는 이제 다중 모드 출력을 지원합니다.

저자：Eve Cole 업데이트 시간：2024-12-20 16:00:02

Google은 최신 세대 인공 지능 모델인 Gemini 2.0을 출시하여 일반 인공 지능 비서 분야에서 Google의 획기적인 발전을 이루었습니다. Gemini 2.0은 다중 모드 처리 및 도구 사용에 있어 상당한 개선을 제공하여 세계에 대한 더 깊은 이해와 사용자 명령 실행을 가능하게 합니다. 이 모델은 Gemini 1.0 및 1.5 버전을 기반으로 개발되었으며 여러 Google 제품에 적용되어 전 세계 수백만 명의 사용자에게 서비스를 제공하고 있습니다. 이 글에서는 Gemini 2.0의 기능과 그것이 Google 제품 및 개발자 생태계에 미치는 영향을 자세히 소개합니다.

Google과 그 모회사인 Alphabet의 CEO인 Sundar Pichai는 Google이 범용 AI 비서를 구축하는 데 있어 중요한 단계인 최신 인공 지능 모델인 Gemini 2.0을 출시했다고 발표했습니다. Gemini 2.0은 다중 모드 입력 처리 및 기본 도구 사용에서 상당한 발전을 보여 AI 에이전트가 주변 세계에 대해 더 깊이 이해하고 감독하에 사용자를 대신하여 조치를 취할 수 있도록 합니다.

Gemini2.0은 이전 버전인 Gemini1.0 및 1.5를 기반으로 개발되었습니다. Gemini1.0 및 1.5는 최초로 기본 멀티모달 처리 기능을 구현했으며 텍스트, 비디오, 이미지, 오디오 및 코드를 포함한 다양한 정보 유형을 이해할 수 있습니다. 현재 수백만 명의 개발자가 Gemini를 사용하여 개발하고 있으며 Google은 20억 명의 사용자에게 서비스를 제공하는 7개 제품을 포함하여 제품을 재구상하고 새로운 제품을 만들고 있습니다. NotebookLM은 다중 모드 및 장기 컨텍스트 기능의 예이며 널리 사랑받고 있습니다.

微信截图_20241212080452.png

Gemini 2.0의 출시는 Google이 새로운 에이전트 시대로의 진입을 예고합니다. 이 모델은 기본 이미지 및 오디오 출력 기능은 물론 기본 도구 사용 기능도 갖추고 있습니다. Google은 개발자와 신뢰할 수 있는 테스터가 Gemini 2.0을 사용할 수 있도록 하기 시작했으며 Gemini 및 검색을 시작으로 이를 제품에 신속하게 통합할 계획입니다. 이제부터 Gemini2.0 Flash 실험 모델은 모든 Gemini 사용자에게 공개됩니다. 동시에 Google은 고급 추론 및 긴 맥락 기능을 사용하여 연구 보조자 역할을 하여 복잡한 주제를 탐색하고 사용자를 대신하여 보고서를 작성하는 Deep Research라는 새로운 기능도 출시했습니다. 이 기능은 현재 Gemini Advanced에서 사용할 수 있습니다.

검색은 AI의 가장 큰 영향을 받는 제품 중 하나이며, Google의 AI 개요는 이제 10억 명의 사용자에게 도달하여 완전히 새로운 질문을 할 수 있게 되었으며 빠르게 Google의 가장 인기 있는 검색 기능 중 하나가 되었습니다. 다음 단계로 Google은 고급 수학 방정식, 다중 모드 쿼리 및 인코딩을 포함하여 더 복잡한 주제와 다단계 문제를 해결하기 위해 Gemini 2.0의 고급 추론 기능을 AI 개요에 도입할 예정입니다. 이번 주에 제한된 테스트가 시작되었으며 내년 초에 더 광범위한 출시가 계획되어 있습니다. Google은 또한 내년에도 계속해서 AI 개요를 더 많은 국가와 언어로 제공할 예정입니다.

Google은 또한 Gemini 2.0의 기본 다중 모드 기능을 통해 에이전트 연구 분야의 최첨단 결과를 보여주었습니다. Gemini 2.0 Flash는 현재 개발자들 사이에서 가장 인기 있는 모델인 1.5 Flash를 비슷하게 빠른 응답 시간으로 개선합니다. 특히 2.0 Flash는 주요 벤치마크에서 2배 빠른 속도로 1.5 Pro보다 성능이 뛰어났습니다. Flash 2.0은 또한 새로운 기능을 제공합니다. Flash 2.0은 이미지, 비디오 및 오디오와 같은 다중 모드 입력을 지원하는 것 외에도 이제 텍스트와 제어 가능한 다중 언어 TTS(텍스트 음성 변환) 오디오가 혼합된 기본 생성 이미지와 같은 다중 모드 출력도 지원합니다. 또한 Google 검색, 코드 실행, 타사 사용자 정의 함수와 같은 도구를 기본적으로 호출할 수도 있습니다.

微信截图_20241212080808.png

Gemini 2.0 Flash는 이제 Google AI Studio 및 Vertex AI의 Gemini API를 통해 모든 개발자가 멀티모달 입력 및 텍스트 출력을 사용할 수 있는 실험 모델로 개발자에게 제공되며, 조기 액세스 파트너에게는 텍스트 음성 변환 및 기본 이미지 생성 기능이 제공됩니다. 추가 모델 크기와 함께 1월에 일반 출시될 예정입니다.

개발자가 동적인 대화형 애플리케이션을 구축할 수 있도록 Google은 실시간 오디오 및 비디오 스트리밍 입력 기능과 여러 조합 도구를 사용할 수 있는 기능을 갖춘 새로운 다중 모드 실시간 API도 출시했습니다.

오늘부터 전 세계 Gemini 사용자는 데스크톱 및 모바일 웹의 모델 드롭다운 메뉴에서 선택하여 채팅에 최적화된 2.0 Flash 실험 버전에 액세스할 수 있으며 곧 Gemini 모바일 앱에서도 사용할 수 있게 됩니다. 내년 초 Google은 Gemini 2.0을 더 많은 Google 제품으로 확장할 예정입니다.

전체적으로 Gemini 2.0의 출시는 AI 분야에서 Google이 취한 또 다른 단계를 나타냅니다. 강력한 다중 모드 기능과 도구 통합은 개발자와 사용자에게 더 풍부한 경험을 제공하고 더 많은 분야에서 AI 기술의 적용을 촉진할 것입니다. .개발 및 적용. 앞으로 Gemini 2.0은 Google의 제품 생태계에 더욱 통합되어 사용자에게 더욱 지능적이고 편리한 서비스를 제공할 것입니다.