Künstliche Intelligenz und ChatGPT
Quellcode und Dokumentation für meinen ADUG-Symposiumsvortrag, präsentiert am 28. April 2023. Seitdem habe ich den Code ergänzt und verbessert, um die Fähigkeiten der KI weiter zu demonstrieren.
Ziel dieses Projekts ist es, Delphi-Benutzern die Möglichkeit zu geben, KI-Technologie in ihren Anwendungen zu nutzen. Es gibt viele verschiedene Arten von KI und Tausende verschiedener Modelle. In diesem Projekt wird daran gearbeitet, verallgemeinerte Schnittstellen zu den verschiedenen Arten von KI-Modellen zu schaffen und diese leicht zugänglich zu machen.
Künstliche Intelligenz (KI) ist ein interdisziplinäres Gebiet, das Informatik, Mathematik und kognitive Psychologie kombiniert, um intelligente Systeme zu schaffen, die komplexe Aufgaben ausführen können. Die rasanten Fortschritte haben zu einer breiten Palette von Anwendungen geführt, die die Vielseitigkeit der KI unter Beweis stellen.
Die Sprachübersetzung ist eine solche Anwendung, bei der KI-gestützte Tools effizient zwischen Sprachen übersetzen und so Aufgaben wie die Übersetzung von Softwareprogrammen für ein globales Publikum vereinfachen. KI zeichnet sich auch bei menschenähnlichen Gesprächen durch interaktive Anwendungen aus, die die menschliche Sprache auf natürliche Weise verstehen und darauf reagieren. Spracherkennung und Echtzeit-Sprache-zu-Text ermöglichen die Konvertierung und nahtlose sprachbasierte Interaktionen und machen KI-gesteuerte Anwendungen zugänglicher und benutzerfreundlicher.
In kreativen und künstlerischen Bereichen kann KI Bilder auf der Grundlage von Textbeschreibungen erzeugen und so ihre Fähigkeit unter Beweis stellen, visuelle Inhalte zu verstehen und zu produzieren. Die Computer-Vision-Fähigkeiten der KI ermöglichen es ihr, Gesichter und andere Objekte in Fotos und Dokumenten genau zu erkennen, was ihr Potenzial bei visuellen Erkennungsaufgaben und verschiedenen Anwendungen wie Sicherheit und Automatisierung verdeutlicht.
Die Fähigkeit der KI, Daten zu analysieren und zu verarbeiten und umfassende Berichte zu erstellen, unterstreicht ihren Wert in verschiedenen Bereichen. Darüber hinaus können KI-gestützte Tools Audiodateien in geschriebenen Text transkribieren, wodurch Transkriptionsaufgaben effizienter und genauer werden.
Die folgenden Beispielprogramme sind ein Versuch, die Möglichkeiten zu demonstrieren, die Delphi-Programmierern heute zur Verfügung stehen. Ich habe daran gearbeitet, generische APIs zu erstellen, damit verschiedene Anbieter ausgetauscht werden können:
- Experiment
- Folgen Sie dem derzeit führenden KI-Modell
- machen es einfach, je nach Preis zu ändern
- Vermeiden Sie eine Lieferantenbindung
- oder aus irgendeinem anderen Grund.
ChatGPT-Eingabeaufforderungen
Einige Beispiele für GPT-Eingabeaufforderungen
Präsentationsfolien vom ursprünglichen ADUG-Symposium 2023
Beispielprogramme
- ChatGPTAction
- Einfache Server-App, die zu einer ChatGPT-GPT-Aktion hinzugefügt werden kann, damit Ihr Computer Delphi-Code schreiben kann. Unter AI Generated Delphi finden Sie einige Beispielprogramme, die mit ChatGPTAction erstellt wurden.
- EmbeddingsDemo
- Einfache Demo, die zeigt, wie Einbettungen funktionieren
- Sprechen
- Programm, das den Aufruf verschiedener Text-to-Speech-APIs und die verschiedenen verfügbaren Stimmen (FMX) demonstriert
- Übersetzen
- übersetzt zwischen Sprachen mithilfe der verschiedenen Cloud-APIs.
- Vereinfachen Sie die Übersetzung von Delphi-Programmen, indem Sie die integrierte Unterstützung für mehrsprachige Ressourcen von Delphi nutzen.
- DelphiChatGPT
- Schreiben Sie Fragen an ChatGPT und lassen Sie es die Antwort sprechen.
- Gesichtserkennung
- Erkennen Sie Gesichter auf einem Foto.
- Wetter
- Fragen Sie beim Büro für Meteorologie nach der Wettervorhersage für Bendigo, erstellen Sie ein oder zwei Absätze und lesen Sie sie vor
- TranscribeAudio
- Laden Sie eine Audiodatei hoch und lassen Sie sie über eine Cloud-Speech-to-Text-API übersetzen.
- Spracherkennung
- Wandeln Sie Sprache in Echtzeit direkt von Ihrem Mikrofon in Text um, geben Sie sie an das GPT von OpenAI weiter und lassen Sie sich die Antwort vorlesen.
- Bilderzeugung
- Generieren Sie ein Bild mit Text, den Sie mit der DALLE-2- und DALLE-3-API von OpenAI bereitstellen.
- Rechnung verarbeiten
- Extrahieren Sie aus einer PDF-Rechnung die wichtigen Details und formatieren Sie sie als maschinenlesbaren JSON-String
- TestAPIs
- Ein Projekt zum Testen der verschiedenen APIs und der Funktionalität der APIs
Das Projekt unterstützt LLM-Funktionen
Besonderheit | GPT-4o | Azure OpenAI-Dienst | Groq | xAIs Grok | Claude von Anthropic | Googles Zwillinge |
---|
Sehunterstützung | Ja | Ja | Ja | Ja | Ja | NEIN* |
Funktionsaufruf | Ja | Ja | Ja | Ja | NEIN* | NEIN* |
*Funktion wird derzeit nicht unterstützt/implementiert
Fragen / Brauchen Sie Hilfe?
Erstellen Sie ein Problem und ich werde darauf antworten.
Verwendete/verfügbare Anbieter
- Google – Text-to-Speech, LLM, Übersetzen
- Microsoft Azure – Text-to-Speech, GPT, Übersetzen
- Amazon – Text-to-Speech, Übersetzen
- Anthropic claude-3-opus, claude-3-sonnet und claude-3-haiku, unterstützt eines der größten derzeit verfügbaren Kontextfenster (200.000 Token)
- X.AI grok-beta LLM
- Replizieren Sie den Zugriff auf eine große Auswahl an Modellen
- Huggingface bietet Zugriff auf eine große Auswahl an Modellen
- ElevenLabs Text-to-Speech und Voice-Klonen
- OpenAI Text to Speech, Flüsterspracherkennung, DALLE-2, DALLE-3 Bilderzeugung, GPT4 LLM
- AssemblyAI-Spracherkennung
- DeepGram-Spracherkennung
- Rev.AI Spracherkennung
- Conqui-ai Führen Sie eine Vielzahl von Text-to-Speech-Modellen lokal aus einem Docker-Container aus
- Lokale Gesichtserkennung von CodeProject-Ai.
Die Projekte zum Laufen bringen
- Jede der Cloud-APIs muss in ihren jeweiligen Entwicklerkonsolen eingerichtet worden sein.
- Führen Sie das TestAPIs-Projekt aus und wählen Sie den Menüpunkt Einstellungen->API-Schlüssel... aus. Fügen Sie die API für die Anbieter hinzu, die Sie verwenden möchten.
- Wenn Sie keinen bestimmten Anbieter nutzen, benötigen Sie keinen Schlüssel dafür.
Fragen zum Code und zur Einrichtung
- Bitte zögern Sie nicht, Fragen zu dem Code zu stellen. Ich weiß, dass dieses Projekt viel zu bieten hat und viel einzurichten ist. Deshalb möchte ich die Dokumentation verbessern, um es jedem einfacher zu machen, alle Teile dieses Projekts zu nutzen.
Mögliche zukünftige Forschungs-/Studienbereiche
- Verwendung von Einbettungen zum Durchsuchen großer Datensätze
- Verwendung von Python4Delphi, um verschiedene Python-KI-Bibliotheken aus Delphi aufrufen zu können.
Verwandte Links zu Künstlicher Intelligenz
TensorFlow.Delphi
whisper.cpp Spracherkennung
lama.cpp
Lama-Pas
Bing Image Creator
Bing
RDOpenAI Delphi-Implementierung von ChatGPT – eine ereignisbasierte Komponente
ChatGPT OpenAI ChatGPT
DelphiOpenAI ist eine Delphi-Bibliothek für OpenAI
ChatGPTPluginForLazarus Ein OpenAI-Plugin (ChatGPT) für die Lazarus-IDE.
ChatGPT ist eine in Delphi geschriebene Firemonkey-ChatGPT-Schnittstelle.
AI-Playground-DesktopClient Ein Firemonkey-Sprachmodellspielplatz für den Zugriff auf Sprachmodelle wie StableLM, ChatGPT und mehr.
AI-Code-Übersetzer Verwenden Sie GPT, um zwischen Programmiersprachen zu übersetzen
TOpenALPR Open Source Nummernschilderkennung
PgVector PgVector ermöglicht das Speichern und Abfragen von Vektoren/Einbettungen in einer SQL-Datenbank
CommonVoice Öffentlicher Datensatz mit Aufzeichnungen für die Spracherkennung
Umarmendes Gesicht
Offener Assistent
Zum Erstellen von Projekten sind externe Bibliotheken erforderlich
- ICS 9.0 oder über den in Delphi integrierten GetIt-Paketmanager. - Zur Spracherkennung
- landgraf-dev/aws-sdk-delphi AWS SDK
- DelphiMVCFramework für ChatGPTAction
Tools zum Erstellen von Beispielprojekten
- https://github.com/PKGeorgiev/Delphi-JsonToDelphiClass
- Geiger
- XML-Datenbinder in Delphi