Der Herausgeber von Downcodes erfuhr, dass das Unternehmen für künstliche Intelligenz Anthropic die Modellreihe Claude 3.5 aktualisiert und die neuen Modelle Claude 3.5 Sonnet und Claude 3.5 Haiku auf den Markt gebracht hat. Der Kernpunkt dieses Upgrades besteht darin, dass es die Codierungsfunktionen erheblich verbessert und Claude die Möglichkeit gibt, menschliche Operationen auf Computern zu simulieren. Dies markiert den wichtigen Schritt von Anthropic bei der Erweiterung kommerzieller KI-Modelle zu umfassenden „KI-Agenten“. Die Punktzahl von Sonnet im SWE-Bench Verified stieg auf 49,0 % und übertraf damit alle öffentlich verfügbaren Modelle, einschließlich des o1-Preview-Modells von OpenAI. Haiku schneidet in mehreren intelligenten Benchmark-Tests mit höherer Geschwindigkeit und genaueren Befehlsverfolgungsfunktionen gut ab. Dieses Upgrade bringt leistungsfähigere KI-Unterstützungstools und ein komfortableres Erlebnis für Entwickler und Benutzer.
Das auf künstliche Intelligenz spezialisierte Unternehmen Anthropic kündigte umfangreiche Upgrades für die Modellreihe Claude 3.5 an, darunter das neue Claude 3.5 Sonnet und Claude 3.5 Haiku. Die aktualisierte Version soll es künstlicher Intelligenz ermöglichen, Ihren PC zu übernehmen und grundlegende Aufgaben wie die Simulation von Tastatureingaben und Mausklicks auszuführen, um jede auf Ihrem Computer installierte Anwendung zu verwenden.
Die Codierungsfunktionen wurden deutlich verbessert und übertreffen das OpenAI o1-Preview-Modell
Das neue Claude3.5Sonnet wurde in allen Aspekten deutlich verbessert, insbesondere im Hinblick auf die Codierungsfunktionen. Sein Wert im SWE-Bench Verified stieg von 33,4 % auf 49,0 % und übertraf damit alle öffentlich verfügbaren Modelle, einschließlich des o1-Preview-Modells von OpenAI.
Darüber hinaus hat sich seine Leistung auf der TAU-Bank verbessert, insbesondere im Einzelhandels- und Luftfahrtsektor. Und das alles bei gleichem Preis und gleicher Geschwindigkeit wie sein Vorgänger.
Das Kundenfeedback zeigt, dass das aktualisierte Claude3.5Sonnet einen qualitativen Sprung in der KI-Codierung gemacht hat. GitLab hat dieses Modell beispielsweise für DevSecOps-Aufgaben getestet und erhebliche Verbesserungen der Argumentationsfähigkeiten ohne Erhöhung der Latenz festgestellt.
Claude3.5Haiku ist Claudes schnellstes Modell der nächsten Generation , übertrifft Claude3Opus bei gleichen Kosten und derselben Geschwindigkeit und schneidet bei mehreren intelligenten Benchmarks gut ab, insbesondere bei Codierungsaufgaben. Aufgrund der geringen Latenz und der genaueren Befehlsverfolgungsfähigkeiten eignet sich Claude3.5Haiku sehr gut für die Erstellung von Benutzeroberflächenprodukten und personalisierten Erlebnissen.
Bedienen Sie Computer wie ein Mensch
Die neu eingeführte Computernutzungsfunktion ist ein völlig neuer Versuch . Beamte sagen, es gehe dabei nicht darum, spezielle Tools für Claude zu entwickeln, sondern ihm allgemeine Computerkenntnisse beizubringen, damit er eine Vielzahl von Standardtools und Softwareprogrammen verwenden könne. Entwickler können diese Funktion nutzen, um sich wiederholende Prozesse zu automatisieren, Software zu erstellen und zu testen, offene Forschung durchzuführen und vieles mehr.
Natürlich müssen Claudes derzeitige Fähigkeiten im Umgang mit Computern noch verbessert werden. Einige einfache Vorgänge wie Scrollen und Ziehen stellen für Claude immer noch eine Herausforderung dar. Um die Sicherheit zu gewährleisten, haben die Behörden außerdem einen neuen Klassifikator entwickelt, der erkennen kann, ob die Computernutzung potenzielle Schäden verursacht hat.
„Wir stehen kurz vor dem Eintritt in eine neue Ära, in der künstliche Intelligenz alle Werkzeuge nutzen kann, die man als Einzelperson zur Erledigung von Aufgaben nutzt“, sagte Jared Kaplan, Chief Scientific Officer von Anthropic, in einem Interview. Es sei ein wichtiger Schritt bei der Ausweitung kommerzieller KI getan worden Modelle von traditionellen Chat-Frameworks bis hin zu vollwertigen „KI-Agenten“.
In einer Demo wurde Claude gebeten, für einen Freund einen Ausflug zu planen, um den Sonnenaufgang über der Golden Gate Bridge zu beobachten. Die KI öffnete nicht nur die Webseite, sondern fand auch einen geeigneten Aussichtspunkt bei Google und fügte den Reiseplan der Kalender-App hinzu. Obwohl diese Leistung beeindruckend ist, weist Wired darauf hin, dass sie einige zusätzliche Informationen nicht bereitstellt, beispielsweise wie Sie an Ihr Ziel gelangen.
Darüber hinaus wurde Claude in einer weiteren Demonstration gebeten, eine einfache Website zu erstellen. Als Ergebnis erstellte er erfolgreich eine Website mit dem Visual Studio Code von Microsoft und öffnete den lokalen Server zum Testen. Unterwegs sind jedoch einige kleinere Fehler aufgetreten, der Code wurde jedoch erfolgreich behoben, als wir dazu aufgefordert wurden.
Claude 3.5 Sonne demonstrierte seine Fähigkeit, mehrstufige Aufgaben auf verschiedenen Softwareplattformen auszuführen, indem er die erforderlichen Informationen aus einem Customer-Relationship-Management-System (CRM) abgerufen hat, um ein Lieferantenanfrageformular selbstständig auszufüllen.
Das aktualisierte Claude3.5Sonnet ist jetzt für alle Benutzer verfügbar. Ab heute können Entwickler mit der Computer-Beta auf der Anthropic API, Amazon Bedrock und der Vertex AI von Google Cloud aufbauen. Das neue Claude3.5Haiku wird noch in diesem Monat veröffentlicht.
Offizieller Blog: https://www.anthropic.com/news/3-5-models-and-computer-use
Highlight:
Die Modelle Claude3.5Sonnet und Haiku wurden erheblich aktualisiert und ihre Codierungsfunktionen wurden erheblich verbessert.
? Die neu eingeführte Computernutzungsfunktion ermöglicht es Claude, den Computer wie ein Mensch zu bedienen, was mehr Möglichkeiten eröffnet.
„Der Einsatz von KI-Assistenten birgt Sicherheitsrisiken, und Anthropic legt Wert auf schrittweise Beobachtung und Verbesserung, um die Sicherheit zu gewährleisten.“
Alles in allem zeigt die Modellverbesserung der Claude 3.5-Serie von Anthropic die rasante Entwicklung der KI-Technologie und deutet auch darauf hin, dass KI in Zukunft in mehr Bereichen eine stärkere Rolle spielen wird. Obwohl es noch einige Herausforderungen gibt, lohnt es sich, auf die Entwicklungsaussichten zu blicken. Der Herausgeber von Downcodes wird die neuesten Entwicklungen in diesem Bereich weiterhin im Auge behalten und den Lesern weitere spannende Berichte bringen.