Inteligencia artificial y ChatGPT
Código fuente y documentación para mi charla en el simposio ADUG presentada el 28 de abril de 2023. Desde entonces, agregué y mejoré el código para demostrar aún más las capacidades de la IA.
El objetivo de este proyecto es permitir que los usuarios de Delphi puedan utilizar tecnología de inteligencia artificial en sus aplicaciones. Hay muchos tipos diferentes de IA y miles de modelos diferentes. Este proyecto está trabajando en la creación de interfaces generalizadas para los diferentes tipos de modelos de IA y hacerlos fácilmente accesibles.
La inteligencia artificial (IA) es un campo interdisciplinario que combina la informática, las matemáticas y la psicología cognitiva para crear sistemas inteligentes capaces de realizar tareas complejas. Sus rápidos avances han dado lugar a una amplia gama de aplicaciones que demuestran la versatilidad de la IA.
La traducción de idiomas es una de esas aplicaciones, donde las herramientas impulsadas por IA traducen de manera eficiente entre idiomas, simplificando tareas como la traducción de programas de software para audiencias globales. La IA también sobresale en conversaciones similares a las humanas, con aplicaciones interactivas que entienden y responden al lenguaje humano de forma natural. El reconocimiento de voz y la conversión de voz a texto en tiempo real permiten la conversión e interacciones fluidas basadas en voz, lo que hace que las aplicaciones impulsadas por IA sean más accesibles y fáciles de usar.
En los ámbitos creativos y artísticos, la IA puede generar imágenes basadas en descripciones textuales, mostrando su capacidad para comprender y producir contenido visual. Las capacidades de visión por computadora de la IA le permiten reconocer con precisión rostros y otros objetos en fotografías y documentos, lo que ilustra su potencial en tareas de reconocimiento visual y diversas aplicaciones como seguridad y automatización.
La capacidad de la IA para analizar y procesar datos y generar informes completos resalta su valor en varios dominios. Además, las herramientas impulsadas por IA pueden transcribir archivos de audio a texto escrito, lo que hace que las tareas de transcripción sean más eficientes y precisas.
Los programas de ejemplo a continuación son un intento de demostrar las capacidades disponibles para los programadores de Delphi en la actualidad. He trabajado en la creación de API genéricas para que se puedan intercambiar diferentes proveedores hacia:
- experimento
- seguir el modelo de IA líder actual
- facilitar el cambio según el precio
- evitar el bloqueo de proveedores
- o por cualquier otro motivo.
Avisos de ChatGPT
Algunos ejemplos de indicaciones GPT
Diapositivas de presentación del Simposio ADUG original de 2023
Programas de ejemplo
- ChatGPTAcción
- Aplicación de servidor simple que se puede agregar a una acción ChatGPT GPT para permitir que su computadora escriba código Delphi. Consulte Delphi generado por IA para ver algunos programas de ejemplo creados con ChatGPTAction.
- IncrustacionesDemostración
- Demostración sencilla que muestra cómo funcionan las incrustaciones
- Hablar
- Programa que demuestra cómo llamar a varias API de Texto a voz y las diferentes voces disponibles (FMX)
- Traducir
- traduce entre idiomas utilizando las distintas API de la nube.
- Simplifique la traducción de programas de Delphi cuando utilice el soporte de recursos multilingüe integrado de Delphi.
- DelphiChatGPT
- Escribe preguntas en ChatGPT y haz que diga la respuesta.
- Detección de rostros
- Detecta caras en una foto.
- Clima
- Consulte el pronóstico del tiempo para Bendigo en la oficina de meteorología, genere uno o dos párrafos y léalo en voz alta.
- TranscribirAudio
- Cargue un archivo de audio y tradúzcalo a través de una API de voz a texto en la nube.
- Reconocimiento de voz
- convierta voz en texto en tiempo real directamente desde su micrófono, envíelo al GPT de OpenAI y haga que le lean la respuesta.
- Generación de imágenes
- genere una imagen utilizando el texto que usted proporcione utilizando la API DALLE-2 y DALLE-3 de OpenAI.
- ProcesarFactura
- de una factura en pdf, extraiga los detalles importantes y formatee como una cadena JSON legible por máquina
- API de prueba
- Un proyecto para probar las diferentes API y la funcionalidad de las API.
El proyecto admite características de LLM
Característica | GPT-4o | Servicio Azure OpenAI | Groq | Grok de xAI | Claude de Anthropic | Géminis de Google |
---|
Soporte de visión | Sí | Sí | Sí | Sí | Sí | No* |
Llamada de función | Sí | Sí | Sí | Sí | No* | No* |
*Función no compatible/implementada actualmente
Preguntas / ¿Necesita ayuda?
Crea un problema y lo responderé.
Proveedores utilizados/disponibles
- Google - Texto a voz, LLM, Traductor
- Microsoft Azure: texto a voz, GPT, traducción
- Amazon - Texto a voz, Traducir
- Claude-3-opus, claude-3-sonnet y claude-3-haiku antrópicos, que admiten una de las ventanas de contexto más grandes disponibles actualmente (200 000 tokens)
- X.AI grok-beta LLM
- Acceso replicado a una amplia gama de modelos.
- Huggingface accede a una amplia gama de modelos
- Texto a voz y clonación de voz de ElevenLabs
- Texto a voz OpenAI, reconocimiento de voz susurrante, DALLE-2, generación de imágenes DALLE-3, GPT4 LLM
- AsambleaReconocimiento de voz AI
- Reconocimiento de voz DeepGram
- Reconocimiento de voz Rev.AI
- Conqui-ai Ejecute una variedad de modelos de texto a voz localmente desde un contenedor acoplable
- Detección de rostros local CodeProject-Ai.
Hacer que los proyectos funcionen
- Cada una de las API de la nube debe haberse configurado en sus respectivas consolas de desarrollador.
- Ejecute el proyecto TestAPIs y seleccione el elemento de menú Configuración->Claves API.... Agregue la API para los proveedores que desea utilizar.
- Si no está utilizando un proveedor en particular, no necesita una clave para ello.
Preguntas sobre el código y cómo configurar las cosas
- No dude en plantear cualquier pregunta que tenga sobre el código. Sé que hay mucho en este proyecto y mucho que configurar, por lo que me gustaría mejorar la documentación para que a todos les resulte más fácil usar todas las partes de este proyecto.
Posibles áreas futuras de investigación/estudio
- Uso de incrustaciones para buscar grandes conjuntos de datos
- Usar Python4Delphi para poder llamar a varias bibliotecas de Python AI desde Delphi.
Enlaces relacionados con Inteligencia Artificial
TensorFlow.Delphi
susurro.cpp Reconocimiento de voz
llama.cpp
llama-pas
Creador de imágenes de Bing
Bing
Implementación RDOpenAI Delphi de ChatGPT: un componente basado en eventos
ChatGPT OpenAI ChatGPT
DelphiOpenAI una biblioteca Delphi para OpenAI
ChatGPTPluginForLazarus Un complemento OpenAI (ChatGPT) para Lazarus IDE.
ChatGPT una interfaz ChatGPT de Firemonkey escrita en Delphi.
AI-Playground-DesktopClient Un patio de juegos de modelos de lenguaje Firemonkey para acceder a modelos de lenguajes como StableLM, ChatGPT y más.
AI-Code-Translator Utilice GPT para traducir entre lenguajes de programación
Reconocimiento de matrículas de código abierto TOpenALPR
PgVector PgVector permite almacenar y consultar vectores/incrustaciones en una base de datos SQL
CommonVoice Conjunto de datos públicos de grabaciones para reconocimiento de voz
abrazando cara
Asistente abierto
Bibliotecas externas necesarias para construir proyectos
- ICS 9.0 o desde el administrador de paquetes GetIt integrado en Delphi. - Para reconocimiento de voz
- landgraf-dev/aws-sdk-delphi AWS SDK
- DelphiMVCFramework para ChatGPTAction
Herramientas utilizadas para crear proyectos de ejemplo.
- https://github.com/PKGeorgiev/Delphi-JsonToDelphiClass
- Violinista
- Carpeta de datos XML en Delphi