Multimodale Bildverständnismodell-API von Dark Side of the Moon Kimi veröffentlicht – AI-Artikel

Autor：Eve Cole Aktualisierungszeit：2025-01-28 16:32:01

Beijing Dark Side of the Moon Technology Co., Ltd. hat ein neues multimodales Bildverständnismodell „moonshot-v1-vision-preview“ veröffentlicht. Dieses Modell ist eine Erweiterung der Moonshot-v1-Serie und verbessert Kimis Fähigkeit, Bildinformationen zu verstehen . Das Vision-Modell verfügt über leistungsstarke Bilderkennungsfunktionen und kann subtile Unterschiede genau unterscheiden, beispielsweise sehr ähnliche Bilder von Blaubeermuffins und Chihuahuas. Darüber hinaus schneidet es auch bei der OCR-Texterkennung gut ab und kann verschiedene Dokumente, einschließlich gekritzelter Handschrift, wie Quittungen und Express-Lieferaufträge, genau erkennen. Dieses Modell unterstützt eine Vielzahl von Funktionen wie Mehrrundendialog, Streaming-Ausgabe usw. und bietet Benutzern ein komfortableres und effizienteres Erlebnis.

Am 15. Januar 2025 gab Beijing Dark Side of the Moon Technology Co., Ltd. die offizielle Veröffentlichung des neuen multimodalen Bildverständnismodells „moonshot-v1-vision-preview“ bekannt. Dieses Modell verbessert die multimodalen Fähigkeiten des Moonshot -v1-Modellreihe und hilft Kimi, die Welt besser zu verstehen.

Das Vision-Modell verfügt über leistungsstarke Bilderkennungsfunktionen und kann komplexe Details und Nuancen in Bildern genau identifizieren, egal ob es sich um Lebensmittel oder Tiere handelt, und kann ähnliche, aber nicht identische Objekte unterscheiden. Angesichts von 16 ähnlichen Bildern von Blaubeermuffins und Chihuahuas, die für das menschliche Auge schwer zu unterscheiden sind, kann das Vision-Modell sie beispielsweise genau unterscheiden und identifizieren.

Das Vision-Modell verfügt außerdem über die landesweit führenden fortschrittlichen Bilderkennungsfunktionen und bietet eine gute Leistung bei OCR-Texterkennungs- und Bildverständnisszenarien. Es ist genauer als gewöhnliche Dokumentenscan- und OCR-Erkennungssoftware und kann gekritzelte handschriftliche Inhalte wie Quittungen und Express-Lieferaufträge erkennen .

微信截图_20250115135433.png

Das Vision-Vision-Modell unterstützt mehrere Dialogrunden, Streaming-Ausgabe, Tool-Aufruf, JSON-Modus, Teilmodus und andere Funktionen, unterstützt jedoch derzeit nicht die Online-Suche. Die Erstellung von Kontext-Cache mit Bildinhalten wird jedoch nicht unterstützt Die Verwendung erfolgreich erstellter Cache-Aufrufe. Das Vision-Modell unterstützt keine Bilder im URL-Format und unterstützt derzeit nur Base64-codierte Bildinhalte.

Modellabrechnung

Preis der Modellabrechnungseinheit: Moonshot-v1-8k-vision-preview1 Mio. Token ¥ 12,00, Moonshot-v1-32k-vision-preview 1 Mio. Token ¥ 24,00, Moonshot-v1-128k-vision-preview 1 Mio. Token ¥ 60,00

Die Veröffentlichung des Modells „moonshot-v1-vision-preview“ markiert einen neuen Durchbruch von Beijing Dark Side of the Moon Technology Co., Ltd. im Bereich der multimodalen künstlichen Intelligenz und bietet eine neue Richtung für die Entwicklung des Bildverständnisses Technologie. Seine starke Leistung und seine umfangreichen Funktionen bieten breite Anwendungsperspektiven in vielen Anwendungsszenarien, und es lohnt sich, auf seine zukünftige Entwicklung und Anwendung zu blicken.