Сэмплер GenAI для iOS
Коллекция примеров генеративного искусственного интеллекта на iOS.
Использование
- Переименуйте
APIKey.sample.swift
в APIKey.swift
и поместите ключ API OpenAI в значение свойства apiKeyOpenAI
. - Стройте и запускайте.
- Пожалуйста, запустите на своем iPhone или iPad. (Пример в реальном времени не работает на симуляторах.)
Содержание
Мультимодальные примеры GPT-4o
Текстовый чат
Простой пример текстового чата.
Здесь показаны как обычные, так и потоковые реализации.
Понимание изображения
Мультимодальный пример, предоставляющий описание изображения с помощью GPT-4o.
Выходной образец
На изображении изображен человек, сидящий за столом и держащий в руках смартфон. Человек смотрит на телефон и, кажется, сам записывает или просматривает видео на устройстве. На человеке темная толстовка с логотипом OpenAI. На столе стоит черная кружка с логотипом OpenAI. Справа от изображения крупным планом показан экран телефона, на котором видно отражение человека.
Действие происходит в помещении, на заднем плане видны лампа и стул. Освещение теплое, создающее комфортную атмосферу.
Видео подведение итогов
Мультимодальный пример, предоставляющий краткое описание видео с помощью GPT-4o.
Выходной образец
Судя по всему, это кадры из презентации, вероятно, связанной с мероприятием Apple, посвященным WWDC21.- В первом кадре показаны три анимированных персонажа-эмодзи буквы M, частично освещенные.
- На втором кадре изображен Apple MacBook с логотипом WWDC21 и четырьмя значками, обозначающими различные приложения.
- На следующих кадрах изображен человек (вероятно, ведущий), дающий объяснения. Окружение предполагает, что это презентация, ориентированная на технологии, на заднем плане видны камеры и компьютер Mac.
- Рядом с темами докладчика появляется постепенное наложение текста, включая «Минимальный фокус с «расстоянием», «-битное HDR-видео», «Эффекты в Центре управления Video10», «Рекомендации по производительности» и «сжатиеurfaceIOS».
- Последний кадр показывает черный экран с текстом «Классы AV captureFoundation».
В совокупности кадры изображают фрагмент сессии разработчиков Apple, где обсуждаются технические детали и лучшие практики, связанные с захватом видео и эффектами.
Понимание видео в реальном времени
Мультимодальный пример, предоставляющий описание видео в реальном времени с помощью GPT-4o.
https://www.youtube.com/watch?v=bF5CW3b47Ss
Примеры местных программ LLM
Фи-3
Локальный пример LLM с использованием Phi-3 — GGUF.
Джемма
Локальный пример LLM с использованием Gemma 2B Instruct — GGUF.
Мистраль 7Б
Локальный пример LLM с использованием Мистраля-7Б v0.1 - GGUF.
Примеры платформы перевода Apple
Простое наложение
Простой наложенный перевод с реализацией в 1 строку.
Пользовательский перевод пользовательского интерфейса (доступен в ветке iOS 18)
Пример пользовательского перевода пользовательского интерфейса с использованием TranslationSession
.
Доступность перевода (доступно в ветке iOS 18)
Отображение доступности перевода для каждой языковой пары с помощью LanguageAvailability
.
Примеры стабильной диффузии Core ML
Стабильная диффузия v2.1
Генерация изображений на устройстве с использованием Stable Diffusion v2.1.
Стабильная диффузия XL
Генерация изображений на устройстве с использованием Stable Diffusion XL.
Примеры шепота
WhisperKit
Распознавание речи на устройстве с помощью WhisperKit.
### Будущие функции
- Другие API OpenAI (например, встраивания, изображения, аудио и т. д.)
- Местные LLM
- MLX
- Базовое машинное обучение
- Другие модели Whisper
- Google Близнецы (iOS SDK)
- Другие модели стабильной диффузии
- iOS 18 / Apple Intelligence
- Генмодзи
- Инструменты для письма
- Изображение Детская площадка