Искусственный интеллект и ChatGPT
Исходный код и документация для моего выступления на симпозиуме ADUG, представленного 28 апреля 2023 года. С тех пор я дополнил и усовершенствовал код для дальнейшей демонстрации возможностей ИИ.
Цель этого проекта — предоставить пользователям Delphi возможность использовать технологию искусственного интеллекта в своих приложениях. Существует множество различных типов ИИ и тысячи различных моделей. Этот проект работает над созданием обобщенных интерфейсов для различных типов моделей ИИ и обеспечением легкого доступа к ним.
Искусственный интеллект (ИИ) — это междисциплинарная область, которая объединяет информатику, математику и когнитивную психологию для создания интеллектуальных систем, способных выполнять сложные задачи. Его быстрое развитие привело к появлению широкого спектра приложений, демонстрирующих универсальность ИИ.
Языковой перевод — одно из таких приложений, где инструменты на базе искусственного интеллекта эффективно переводят между языками, упрощая такие задачи, как перевод программного обеспечения для глобальной аудитории. ИИ также преуспевает в человеческом общении благодаря интерактивным приложениям, которые естественным образом понимают человеческий язык и реагируют на него. Распознавание голоса и преобразование речи в текст в режиме реального времени обеспечивают преобразование и плавное голосовое взаимодействие, что делает приложения на основе искусственного интеллекта более доступными и удобными для пользователя.
В творческой и художественной сферах ИИ может генерировать изображения на основе текстовых описаний, демонстрируя свою способность понимать и создавать визуальный контент. Возможности компьютерного зрения ИИ позволяют ему точно распознавать лица и другие объекты на фотографиях и документах, иллюстрируя его потенциал в задачах визуального распознавания и различных приложениях, таких как безопасность и автоматизация.
Способность ИИ анализировать и обрабатывать данные, а также создавать подробные отчеты подчеркивает его ценность в различных областях. Кроме того, инструменты на базе искусственного интеллекта могут транскрибировать аудиофайлы в письменный текст, делая задачи транскрипции более эффективными и точными.
Приведенные ниже примеры программ представляют собой попытку продемонстрировать возможности, доступные сегодня программистам Delphi. Я работал над созданием общих API, чтобы можно было заменять или отключать разных поставщиков:
- эксперимент
- следовать текущей ведущей модели искусственного интеллекта
- облегчить замену в зависимости от цены
- избежать блокировки поставщика
- или по какой-либо другой причине.
Запросы ChatGPT
Некоторые примеры запросов GPT
Слайды презентации с оригинального симпозиума ADUG 2023 года
Примеры программ
- ЧатGPTAAction
- Простое серверное приложение, которое можно добавить в действие ChatGPT GPT, чтобы ваш компьютер мог писать код Delphi. См. раздел AI Generated Delphi, где приведены примеры программ, созданных с помощью ChatGPTAction.
- ВложенияДемо
- Простая демонстрация, показывающая, как работают встраивания
- Разговаривать
- Программа, демонстрирующая вызов различных API преобразования текста в речь и различные доступные голоса (FMX)
- Переводить
- осуществляет перевод между языками с помощью различных облачных API.
- Упростите перевод программ Delphi при использовании встроенной поддержки многоязычных ресурсов Delphi.
- DelphiChatGPT
- пишите вопросы в ChatGPT и пусть он произносит ответ.
- Обнаружение лица
- Обнаружение лиц на фотографии.
- Погода
- Запросите прогноз погоды для Бендиго в бюро метеорологии, напишите пару абзацев и зачитайте его.
- ТранскрибироватьАудио
- Загрузите аудиофайл и преобразуйте его с помощью облачной речи в текстовый API.
- Распознавание голоса
- преобразуйте речь в текст в режиме реального времени прямо с микрофона, передавайте ее в GPT OpenAI и получайте ответ.
- Генерация изображений
- сгенерируйте изображение, используя текст, который вы предоставляете с помощью API-интерфейсов OpenAI DALLE-2 и DALLE-3.
- ПроцессСчет-фактура
- из счета-фактуры в формате PDF извлеките важные детали и отформатируйте их в виде машиночитаемой строки JSON.
- Тестовые API
- Проект по тестированию различных API и функциональности API.
Проект поддерживает функции LLM
Особенность | ГПТ-4о | Служба Azure OpenAI | Грок | Грок из xAI | Клод из Anthropic | Близнецы от Google |
---|
Поддержка зрения | Да | Да | Да | Да | Да | Нет* |
Вызов функции | Да | Да | Да | Да | Нет* | Нет* |
*Функция в настоящее время не поддерживается/не реализована.
Вопросы / Нужна помощь?
Создайте проблему и я на нее отвечу.
Используемые/доступные провайдеры
- Google — Преобразование текста в речь, LLM, Перевод
- Microsoft Azure — преобразование текста в речь, GPT, перевод
- Amazon — преобразование текста в речь, перевод
- Anthropic claude-3-opus, claude-3-sonnet и claude-3-haiku, поддерживающие одно из самых больших контекстных окон, доступных на данный момент (200 тыс. токенов)
- X.AI грок-бета LLM
- Репликативный доступ к широкому спектру моделей
- Huggingface имеет доступ к широкому выбору моделей
- ElevenLabs Преобразование текста в речь и клонирование голоса
- Преобразование текста в речь OpenAI, распознавание шепота голоса, DALLE-2, генерация изображений DALLE-3, GPT4 LLM
- Распознавание голоса АссамблеиAI
- Распознавание голоса DeepGram
- Распознавание голоса Rev.AI
- Conqui-ai Запуск различных моделей преобразования текста в речь локально из Docker-контейнера
- CodeProject-Ai Локальное обнаружение лиц.
Заставляем проекты работать
- Каждый из облачных API должен быть настроен в соответствующих консолях разработчика.
- Запустите проект TestAPIs и выберите пункт меню Настройки->Ключи API.... Добавьте API для провайдеров, которых вы хотите использовать.
- Если вы не используете определенного провайдера, вам не нужен ключ для него.
Вопросы о коде и о том, как его настроить.
- Пожалуйста, не стесняйтесь задавать вопросы по любым вопросам, связанным с кодом. Я знаю, что в этом проекте много чего нужно настроить, поэтому я хотел бы улучшить документацию, чтобы каждый мог легко использовать все части этого проекта.
Потенциальные будущие области исследований/исследований
- Использование внедрений для поиска в больших наборах данных
- Использование Python4Delphi для вызова различных ИИ-библиотек Python из Delphi.
Искусственный интеллект Ссылки по теме
TensorFlow.Delphi
шепот.cpp Распознавание голоса
лама.cpp
лама-пас
Создатель изображений Bing
Бинг
RDOpenAI Реализация ChatGPT в Delphi — компонент на основе событий
ЧатGPT OpenAI ChatGPT
DelphiOpenAI — библиотека Delphi для OpenAI.
ChatGPTPluginForLazarus Плагин OpenAI (ChatGPT) для Lazarus IDE.
ChatGPT — интерфейс Firemonkey ChatGPT, написанный на Delphi.
AI-Playground-DesktopClient Площадка для модели языка Firemonkey для доступа к таким языковым моделям, как StableLM, ChatGPT и другим.
AI-Code-Translator Используйте GPT для перевода между языками программирования.
TOpenALPR Распознавание номерных знаков с открытым исходным кодом
PgVector PgVector позволяет хранить и запрашивать векторы/вложения в базе данных SQL.
CommonVoice Публичный набор данных записей для распознавания голоса
Обнимающее лицо
Открытый помощник
Внешние библиотеки, необходимые для создания проектов
- ICS 9.0 или из менеджера пакетов GetIt, встроенного в Delphi. - Для распознавания голоса
- Landgraf-dev/aws-sdk-delphi AWS SDK
- DelphiMVCFramework для ChatGPTAction
Инструменты, используемые для создания примеров проектов
- https://github.com/PKGeorgiev/Delphi-JsonToDelphiClass
- Скрипач
- Связывание XML-данных в Delphi