บรรณาธิการของ Downcodes ได้เรียนรู้ว่า H2O.ai เพิ่งเปิดตัวโมเดลภาษาภาพใหม่สองโมเดล ได้แก่ H2OVL Mississippi-2B และ H2OVL-Mississippi-0.8B โดยมีเป้าหมายที่จะปฏิวัติประสิทธิภาพของการวิเคราะห์เอกสารและงาน OCR ทั้งสองรุ่นเปรียบเทียบประสิทธิภาพได้ดีกับผลิตภัณฑ์จากบริษัทเทคโนโลยีรายใหญ่ ช่วยให้ธุรกิจต่างๆ ได้รับโซลูชันการประมวลผลเอกสารที่คุ้มต้นทุนมากขึ้น สิ่งที่น่าสังเกตเป็นพิเศษคือโมเดล H2OVL Mississippi-0.8B ที่มีพารามิเตอร์เพียง 800 ล้านพารามิเตอร์มีประสิทธิภาพเหนือกว่างานอื่นๆ ในงานการจดจำข้อความของ OCRBench ซึ่งเหนือกว่าผลิตภัณฑ์คู่แข่งจำนวนมากด้วยพารามิเตอร์ที่มากกว่าหลายสิบเท่า ซึ่งแสดงให้เห็นถึงประสิทธิภาพของโมเดลขนาดเล็ก
เมื่อเร็วๆ นี้ H2O.ai ได้ประกาศเปิดตัวโมเดลภาษาภาพใหม่ 2 โมเดล ซึ่งออกแบบมาเพื่อปรับปรุงประสิทธิภาพของการวิเคราะห์เอกสารและการรู้จำอักขระด้วยแสง (OCR) ทั้งสองรุ่น ได้แก่ H2OVL Mississippi-2B และ H2OVL-Mississippi-0.8B มีประสิทธิภาพการแข่งขันกับโมเดลจากบริษัทเทคโนโลยีขนาดใหญ่ได้อย่างน่าประทับใจ ซึ่งอาจนำเสนอโซลูชันสำหรับธุรกิจที่เกี่ยวข้องกับเวิร์กโฟลว์ที่ต้องใช้เอกสารจำนวนมาก ซึ่งเป็นโซลูชันที่มีประสิทธิภาพมากขึ้น
แม้ว่ารุ่น H2OVL Mississippi-0.8B จะมีพารามิเตอร์เพียง 800 ล้านพารามิเตอร์ แต่ก็เหนือกว่ารุ่นอื่นๆ ทั้งหมดในงานการจดจำข้อความ OCRBench รวมถึงคู่แข่งที่มีพารามิเตอร์นับพันล้านรายการ โมเดล H2OVL Mississippi-2B ที่มีค่าพารามิเตอร์ 2 พันล้านพารามิเตอร์ทำงานได้ดีในการวัดประสิทธิภาพภาษาภาพหลายภาษา
Sri Ambati ผู้ก่อตั้งและซีอีโอของ H2O.ai กล่าวในการให้สัมภาษณ์ว่า "เราได้ออกแบบโมเดล H2OVL Mississippi ให้เป็นโซลูชันที่มีประสิทธิภาพสูงและคุ้มต้นทุน เพื่อมอบ OCR ที่ขับเคลื่อนด้วย AI ตลอดจนการทำความเข้าใจด้วยภาพสำหรับอุตสาหกรรมต่างๆ และ Document AI ”
เขาเน้นย้ำว่าโมเดลเหล่านี้สามารถทำงานได้อย่างมีประสิทธิภาพในสภาพแวดล้อมที่หลากหลาย และสามารถปรับแต่งได้ตามความต้องการในพื้นที่เฉพาะ ซึ่งจะช่วยให้องค์กรต่างๆ สามารถลดต้นทุนและปรับปรุงประสิทธิภาพได้
H2O.ai เปิดตัวโมเดลใหม่ทั้งสองนี้ฟรีบนแพลตฟอร์ม Hugging Face ช่วยให้นักพัฒนาและองค์กรสามารถปรับเปลี่ยนและปรับใช้โมเดลได้ตามความต้องการของตนเอง การเคลื่อนไหวครั้งนี้ไม่เพียงแต่ขยายฐานผู้ใช้ของ H2O.ai เท่านั้น แต่ยังเพิ่มทางเลือกเพิ่มเติมสำหรับองค์กรที่ต้องการนำโซลูชันเอกสาร AI มาใช้
ในเวลาเดียวกัน Ambati ยังตั้งข้อสังเกตอีกว่าไม่สามารถละเลยข้อได้เปรียบทางเศรษฐกิจของโมเดลขนาดเล็กที่สร้างขึ้นตามวัตถุประสงค์เฉพาะได้ "โมเดลหม้อแปลงไฟฟ้าที่ได้รับการฝึกอบรมล่วงหน้าของเรานั้นอาศัยความร่วมมือเชิงลึกกับลูกค้า และได้รับการออกแบบมาเพื่อดึงข้อมูลที่มีความหมายจากเอกสารขององค์กร" เขาชี้ให้เห็นว่าแบบจำลองของ H2O.ai สามารถให้ประสิทธิภาพสูงในขณะที่ใช้ทรัพยากรในการประมวลผลเอกสารน้อยลง โดยเฉพาะอย่างยิ่งเมื่อต้องเผชิญกับการสแกนคุณภาพต่ำ ลายมืออ่านไม่ออก หรือเอกสารที่มีการแก้ไขอย่างมาก
รายการรุ่น:
H2OVL-มิสซิสซิปปี้-0.8B:https://huggingface.co/h2oai/h2ovl-mississippi-800m
H2OVL มิสซิสซิปปี้-2B: https://huggingface.co/h2oai/h2ovl-mississippi-2b
ไฮไลท์:
H2O.ai เปิดตัวโมเดลภาษาภาพใหม่ H2OVL Mississippi-2B และ H2OVL-Mississippi-0.8B เพื่อมอบโซลูชันการวิเคราะห์เอกสารที่มีประสิทธิภาพ
โมเดล H2OVL Mississippi-0.8B มีประสิทธิภาพเหนือกว่าคู่แข่งรายใหญ่ในงานจดจำข้อความ ซึ่งแสดงให้เห็นถึงศักยภาพของโมเดลขนาดเล็ก
H2O.ai มุ่งมั่นที่จะใช้โซลูชัน AI แบบโอเพ่นซอร์สและใช้งานได้จริง เพื่อช่วยให้องค์กรต่างๆ ดึงข้อมูลอันมีค่าในระหว่างการเปลี่ยนแปลงทางดิจิทัล
H2O.ai รุ่นใหม่ทั้งสองนี้ได้รับการเปิดแหล่งที่มาบนแพลตฟอร์ม Hugging Face และนักพัฒนาและองค์กรที่สนใจสามารถรับและใช้งานได้ฟรี ไม่ต้องสงสัยเลยว่าจะช่วยเร่งให้เกิดความนิยมและการประยุกต์ใช้เทคโนโลยีเอกสาร AI บรรณาธิการของ Downcodes รอคอยที่จะได้เห็นแอปพลิเคชั่นที่เป็นนวัตกรรมมากขึ้นจากทั้งสองโมเดลนี้