ai vinyl specialist Download - ai vinyl specialist Quellcode-Download

ai vinyl specialist

AI-Quellcode

1.0.0

Herunterladen

Davids Vinyl-Spezialist

David ist Spezialist für Schallplatten. Sie können ihn um eine Empfehlung oder zusätzliche Informationen zu den Platten in Ihrer Discogs-Sammlung bitten. David hilft Ihnen gerne weiter.

Technische Details

Diese LLM-Anwendung ist ein einfaches Beispiel für einen Konversationsagenten, der die Discogs-API verwendet, um Informationen über Schallplatten bereitzustellen. Es besteht aus 4 Hauptbausteinen:

Discogs-API-Client : Bei Angabe eines Benutzernamens ruft er die Sammlung von Schallplatten von der Discogs-API ab.
KI-Assistenten-Engine (David) : Bei einer Datensatzsammlung bietet sie eine Konversationsschnittstelle zu den Datensätzen.
Websockets-Server : Er stellt einen Websockets-Server für die Interaktion mit dem KI-Assistenten bereit.
Benutzeroberfläche : Es bietet eine einfache Benutzeroberfläche für die Interaktion mit dem KI-Assistenten über Websockets.

Derzeit wird LangChain4j als Framework mit GPT-4o als KI-Assistenten-Engine verwendet, es kann jedoch problemlos an die Verwendung anderer Engines angepasst werden.

Die Anwendungsarchitektur aus dem folgenden Diagramm wird vom ArchUnit-Framework durch Tests in der ArchitectureTest-Klasse erzwungen.

Architekturdiagramm

Gelernte Lektionen

Die Benutzeroberfläche für dieses Projekt wurde mit der folgenden Eingabeaufforderung entwickelt:

 I need the code for an HTML 5 page that contains an input field for a Discogs username 
and a text area for inserting prompts for the application to send to AI agents. 
Above the text area there should be the space in which the AI responses are displayed, in the ChatGPT style

Der generierte HTML5-Code von GitHub Copilot lieferte die ersten visuellen Elemente für die Benutzeroberfläche, die ich dann modifizierte, um die Websocket-Verbindung und die Logik zum Senden und Empfangen von Nachrichten vom KI-Assistenten hinzuzufügen. Ich fand, dass dies ein sehr schneller Ansatz für die Prototypenerstellung ist. Dann bin ich auf robustere Komponenten von Ant-Design umgestiegen, einschließlich Pro-Chat.

Ursprünglich wollte ich Lama3 verwenden. Das llama3-Modell bietet derzeit keine Unterstützung für Tools (Juni 2024). Das bedeutet, dass der KI-Assistent den Discogs-Benutzernamen nicht erfassen und die Plattensammlung nicht selbstständig abrufen kann. Wir sind auf GPT-4o umgestiegen, damit David nach Discogs-Informationen fragen kann und keine Formulare mehr erforderlich sind.

Einige LLMs sind nicht so intelligent wie andere. Obwohl das Mistral 7b-Modell Tools unterstützt, konnte ich keine guten Antworten daraus erhalten. Es würde nicht einmal meine Integrationstests bestehen. Damit war es mir nicht möglich, ein LLM mit kostenlosen Tools durchzuführen.

Halluzinationen sind schmerzhaft. Ich beginne meine Reise in RAG, um es zu minimieren. Da David im Bereich Musik tätig ist, ist Wikipedia die erste Wissensdatenbank, die RAG in den Sinn kommt. Vielleicht kann ich die MediaWiki-API nutzen, um Musikseiten zu durchsuchen, die für die Konversation relevant sind. Im Moment verwende ich nur die Google-Suche und sie hilft manchmal, reicht aber angesichts der mit Token verbundenen Kosten definitiv nicht aus.

Das Testen der LLM-Anwendung war eine Herausforderung. Ich habe mehr Integrationstests als üblich durchgeführt. Dies führte zu einem langsameren Entwicklungszyklus. Außerdem erschwert die probabilistische Natur des KI-Assistenten das deterministische Testen der Anwendung.

In der LLM-Welt geht es bei Unit-Tests darum, ein KI-Modell aufzurufen, anstatt nur eine Codeeinheit aufzurufen. Bei Verwendung eines cloudbasierten Modells ist die Durchführung von Unit-Tests mit Kosten verbunden. Ich habe auch mit der Verwendung eines zweiten KI-Agenten experimentiert, um die Ergebnisse der Haupt-KI zu ermitteln. Dies ist ein vielversprechender Ansatz, da wir semantische Aussagen machen können und nicht nur die Verarbeitung von Zeichenfolgen. Der Nachteil dabei ist, dass es auch Kosten verursacht und das Risiko von Wahrscheinlichkeitsfehlern erhöht, die durch LLMs entstehen.

Richtig/falsch gehen

Nach rechts gehen: Eingabeaufforderung für wenige Schüsse. Die Ergebnisse des Empfehlungsprogramms verbesserten sich erheblich, als ich diese Technik auf meine Systemeingabeaufforderung anwendete. Ich habe die Persona, den Tonfall, etwas Kontext hinter dem Gespräch und ein paar Beispiele dafür hinzugefügt, was von der KI erwartet wird.
Gehen Sie nach rechts: KI-Testprüfer. Zusicherungen aus den KI-Integrationstests umfassten häufig die Verarbeitung von Zeichenfolgen. Ich dachte, der Einsatz einer anderen KI, die auf die Überprüfung von Testergebnissen spezialisiert ist, würde den Prozess erleichtern. Ich würde ihm eine Erklärung und die Antwort der Haupt-KI geben, und der Testprüfer würde zurückkommen, wenn es ein Bestehen oder Nichtbestehen ist. Aufgrund der Anhäufung probabilistischer Fehler bei der Zusammenarbeit beider KIs führte dies zu unzuverlässigen Tests bei der Verwendung von llama3. Bei der Umstellung auf GPT-4o erwies es sich als sehr nützliches Tool. Es ermöglichte semantische Aussagen. Nutzen Sie Ihr leistungsstärkstes LLM für Testaussagen.
Gehen Sie nach rechts: Werkzeuge. Ich habe die Schallplattensammlung zunächst per Anwendungscode von Discogs abgerufen und zur Systemeingabeaufforderung des LLM hinzugefügt. Dieser Ansatz erforderte ein Eingabefeld auf der Benutzeroberfläche zum Sammeln dieser Daten. Beim Wechsel zu Tools wäre die KI in der Lage, den Discogs-Benutzernamen selbstständig vom Benutzer zu erfassen und alles gesprächiger zu gestalten. Es macht UI-Formulare überflüssig.
Machen Sie einen Fehler: Kosten. Durch das Hinzufügen von Funktionen zum KI-Agenten wird die Anzahl der Token erhöht, die in jeden Chat eingehen. Bei Verwendung eines fein abgestimmten Modells erhöht sich der Wert noch weiter. Je mehr wir die Anzahl der Beispiele in der Eingabeaufforderung mit wenigen Schüssen erhöhen, desto mehr zahlen wir für die Eingabeaufforderungsmeldungen des Systems. Die Verwendung von GPT-4o ist derzeit mit hohen Kosten verbunden, und die Wahl des zu verwendenden LLM sollte sorgfältig abgewogen werden. LangChain hilft mit einer Abstraktionsschicht, die es einfach macht, das zugrunde liegende LLM zu ändern.
Machen Sie einen Fehler: Verwenden Sie Ollama und llama3. Ich habe llama3 ursprünglich in Ollama ausgeführt, um einen kostenlosen Prototyp einer Gen-KI-Anwendung zu erstellen. Anfangs funktionierte es, führte aber schnell zu sehr langsamen Entwicklungszyklen. Die Ausführung meiner Testsuite mit 20 Tests und der Ausführung eines wiederverwendbaren Testcontainers würde 5 Minuten dauern. Beim Ausführen der Anwendung kam es zu einer Kaltstartverzögerung von ca. 1 Minute, um das Gespräch zu starten. Ich musste es durch ein cloudbasiertes LLM wie ChatGPT 3.5 ersetzen.

Wie man läuft

Sie benötigen einen gültigen OpenAI-API-Schlüssel, um diese Anwendung auszuführen.

Klonen Sie das Repository.
Führen Sie ./gradlew bootRun aus, um die Anwendung zu starten.
Besuchen Sie http://localhost:8080 in Ihrem Browser, um mit dem KI-Assistenten zu interagieren.

Expandieren

Zusätzliche Informationen