Downcodes의 편집자는 H2O.ai가 최근 문서 분석 및 OCR 작업의 효율성을 혁신하는 것을 목표로 H2OVL Mississippi-2B 및 H2OVL-Mississippi-0.8B라는 두 가지 새로운 시각적 언어 모델을 출시했다는 사실을 알게 되었습니다. 두 모델 모두 주요 기술 회사의 제품에 비해 성능이 우수하여 기업에 보다 비용 효율적인 문서 처리 솔루션을 제공합니다. 특히 주목할만한 점은 매개변수가 8억 개에 불과한 H2OVL Mississippi-0.8B 모델이 OCRBench 텍스트 인식 작업에서 군중을 능가하여 수십 배 더 많은 매개변수를 갖춘 많은 경쟁 제품을 능가하여 작은 모델의 성능을 보여주었다는 것입니다.
최근 H2O.ai는 문서 분석 및 광학 문자 인식(OCR) 작업의 효율성을 향상시키기 위해 설계된 두 가지 새로운 시각적 언어 모델의 출시를 발표했습니다. H2OVL Mississippi-2B 및 H2OVL-Mississippi-0.8B의 두 모델은 거대 기술 회사의 모델과 성능 면에서 매우 경쟁력이 있으며 문서가 많은 작업 흐름을 처리하는 기업에 잠재적으로 솔루션을 제공합니다.
H2OVL Mississippi-0.8B 모델에는 8억 개의 매개변수만 있지만 수십억 개의 매개변수를 가진 경쟁사를 포함하여 OCRBench 텍스트 인식 작업에서 다른 모든 모델을 능가합니다. 20억 매개변수 H2OVL Mississippi-2B 모델은 여러 시각적 언어 벤치마크에서 좋은 성능을 보였습니다.
H2O.ai의 창립자이자 CEO인 Sri Ambati는 인터뷰에서 "H2OVL 미시시피 모델은 AI 기반 OCR, 다양한 산업에 대한 시각적 이해 및 Document AI를 제공하기 위한 고성능, 비용 효율적인 솔루션으로 설계했습니다. ”
그는 이러한 모델이 다양한 환경에서 효율적으로 실행될 수 있고 특정 영역의 요구에 따라 미세 조정될 수 있으므로 기업이 비용을 절감하고 효율성을 향상시키는 데 도움이 된다고 강조했습니다.
H2O.ai는 Hugging Face 플랫폼에서 이 두 가지 새로운 모델을 무료로 출시하여 개발자와 기업이 필요에 따라 모델을 수정하고 조정할 수 있도록 했습니다. 이러한 움직임은 H2O.ai의 사용자 기반을 확장할 뿐만 아니라 문서 AI 솔루션을 채택하려는 기업에 더 많은 옵션을 제공합니다.
동시에 Ambati는 소형 특수 제작 모델의 경제적 이점도 무시할 수 없다고 지적했습니다. "우리의 생성적 사전 훈련된 변환기 모델은 고객과의 심층적인 협력을 기반으로 하며 기업 문서에서 의미 있는 정보를 추출하도록 설계되었습니다." 그는 H2O.ai의 모델이 더 적은 리소스를 소비하면서 높은 효율성을 제공할 수 있다고 지적했습니다. 특히 품질이 낮은 스캔, 읽을 수 없는 필기 또는 심하게 수정된 문서에 직면했을 때 더욱 그렇습니다.
모델 항목:
H2OVL-미시시피-0.8B:https://huggingface.co/h2oai/h2ovl-mississippi-800m
H2OVL 미시시피-2B: https://huggingface.co/h2oai/h2ovl-mississippi-2b
가장 밝은 부분:
H2O.ai는 효율적인 문서 분석 솔루션을 제공하기 위해 새로운 시각적 언어 모델인 H2OVL Mississippi-2B 및 H2OVL-Mississippi-0.8B를 출시합니다.
H2OVL Mississippi-0.8B 모델은 텍스트 인식 작업에서 대형 경쟁사보다 성능이 뛰어나 소형 모델의 잠재력을 보여줍니다.
H2O.ai는 기업이 디지털 혁신 과정에서 귀중한 정보를 추출할 수 있도록 돕는 오픈 소스 및 실용적인 AI 솔루션에 전념하고 있습니다.
H2O.ai의 이 두 가지 새로운 모델은 Hugging Face 플랫폼에서 오픈 소스화되었으며, 관심 있는 개발자와 기업은 이를 무료로 획득하여 사용할 수 있습니다. 이는 의심할 여지 없이 문서 AI 기술의 대중화 및 적용을 가속화할 것입니다. Downcodes의 편집자는 이 두 모델을 기반으로 하는 더욱 혁신적인 애플리케이션을 기대하고 있습니다.