Общаться с вашими корпоративными данными с помощью LLM
Этот образец демонстрирует несколько подходов к созданию CATGPT-подобного опыта по сравнению с вашими собственными данными. Он использует Azure Openai Service для доступа к модели CHATGPT (GPT-35-Turbo и GPT3) и Vector Store (Pinecone, Redis и другие) или Azure Cognitive Search для индексации и поиска данных.
Repo предоставляет способ загрузить свои собственные данные, чтобы он был готов попытаться закончить до конца.
Обновления
- 30.03.2024 - Рефактор для ведения чата, потока чата, QNA, загрузки и функциональности администратора. Все остальные будут перемещены в его собственное репо.
- 3/10/2024 - Переместите версию быстрого потока в Entaoaipf
- 3/9/2024 - Начальная версия передовых тряпичных техник и мультимодального тряпичного рисунка
- 28.02.2024 - Удаленные функции анализа SEC и перемещен в собственную репо в SEC
- 28.01.2024 - Удалите функции Pitchbook, когда они перемещаются в собственную репо в PIB
- 19.01.2024 - Обновил пакет Python & OpenAI> 1.0. Изменения, внесенные во все Python API для нарушения изменений, введенных в OpenAI и Langchain.
- 12.10.2023 - Первоначальная версия автономного приглашения. На данный момент поддержание индексов Pinecone, но поддержка когнитивного поиска и Redis скоро будет обновлена.
- 29.09.2023 - Добавлена оценка rackflow. Быстрый поток после создания в Azure ML, может быть прикреплен к вашему существующему прогону для оценки в соответствии с следующим процессом оценки:
- Основанность-Поток оценки заземления и ответов будет оценивать системы с увеличенным генерацией вопросов и ответов, используя современные самые большие языковые модели (LLM) для измерения качества и безопасности ваших ответов. Использование GPT-3.5 в качестве языковой модели для оказания помощи в измерениях направлено на достижение высокого согласия с человеческими оценками по сравнению с традиционными математическими измерениями. gpt_groundedsness (против контекста): измеряет, насколько обоснованы предсказанные ответы модели против контекста. Даже если ответы LLM истины, если не поддаются проверке против контекста, то такие ответы считаются неземными.
- Сходство ADA-Поток оценки Q & A ADA_SImilalty оценит системы добычи Q & A, используя современные модели крупных языков (LLM) для измерения качества и безопасности ваших ответов. Использование GPT-3.5 в качестве языковой модели для оказания помощи в измерениях направлено на достижение высокого согласия с человеческими оценками по сравнению с традиционными математическими измерениями. Поток оценки сходства ADA позволяет оценивать и оценивать вашу модель с помощью LLM-сходной сходства ADA Metri Ada_simwarity: измеряет сходство косинуса встроенных внедрений ADA прогнозирования модели и основной истины. ADA_SImilality - это значение в диапазоне [0, 1].
- Когерентность-Поток оценки согласованности вопросов и ответов будет оценивать системы с увеличенным генерацией Q & A, используя современные самые большие языковые модели (LLM) для измерения качества и безопасности ваших ответов. Использование GPT-3.5 в качестве языковой модели для оказания помощи в измерениях направлено на достижение высокого согласия с человеческими оценками по сравнению с традиционными математическими измерениями. Поток оценки когерентности позволяет вам оценивать и оценивать вашу модель с помощью показателя когерентности с помощью LLM. GPT_COHERENCE: измеряет качество всех предложений в предсказанном ответе модели и то, как они естественным образом сочетаются. Когерентность оценивается по шкале от 1 до 5, а 1 - худший, а 5 - лучшие.
- Сходство-Поток оценки сходства вопросов и ответов оценит системы получения вопросов и ответов, используя современные самые большие языковые модели (LLM) для измерения качества и безопасности ваших ответов. Использование GPT-3.5 в качестве языковой модели для оказания помощи в измерениях направлено на достижение высокого согласия с человеческими оценками по сравнению с традиционными математическими измерениями. Поток оценки сходства позволяет оценивать и оценивать вашу модель с помощью показателя сходства с помощью LLM. GPT_SImilality: измеряет сходство между предоставленными пользователем Ответы по истине, и модель предсказала ответ. Сходство оценивается по шкале от 1 до 5, а 1 - худший, а 5 - лучшие.
- Оценка F1-Поток оценки F1 Q & A F1 будет оценивать системы добычи в поисках и ответов с использованием F1-показателя на основе слова в прогнозируемом ответе и наземной истине. Поток оценки F1 позволяет определить метрику F1-показателя, используя количество общих токенов между нормализованной версией наземной истины и прогнозируемым ответом. F1-показатель: вычислите F1-показатель на основе токенов в прогнозируемом ответе и основной истине. F1-показатель является значением в диапазоне [0, 1]. Метрика заземления оценивается по шкале от 1 до 5, а 1 - худший, а 5 - лучшие.
- 22.09.2023 - Добавлен opperflow для SQLask. Убедитесь, что значения конфигурации
PFSQLASK_URL
и PFSQLASK_KEY
добавляются в развернутую конечную точку, чтобы включить функцию. Также убедитесь, что SynapseName
, SynapsePool
, SynapseUser
и SynapsePassword
values добавляются в подключение entaoai
rampleflow. Перенос удаляя возможность сеанса для CHATGPT на страницу администратора. - 20.09.2023 - Добавлена конфигурация, чтобы позволить конечному пользователю изменить тип поиска для индекса вектора когнитивного поиска (гибридный, сходство/вектор и гибридный повторный рейк), на основе лучших практик, которые мы поделились. QNA, чат и быстрый поток изменяются. QNA и CHAT реализуют индивидуальную реализацию векторного хранилища Langchain и быстрого потока с использованием вспомогательных функций. Исправлена проблема с QNA/CHAT/QUINDEFLOW, не генерирующим последующие вопросы.
- 18.09.2023 - Refactored SQL NLP, чтобы не использовать агент/цепь базы данных Langchain, а вместо этого используйте пользовательские подсказки.
- 15.09.2023 - изменил пакет поиска Azure на 11.4.0B9 и Langchain на последнюю версию. Добавлена возможность выполнить оценку на Quickflow как для QNA, так и для чата. BERT PDF и данные оценки могут быть использованы для выполнения партии и оценки в быстром потоке. Образец ноутбука, демонстрирующий процесс потока и E2E. Папка Bert Chat позволяет протестировать e2e -поток, пакетный запуск и оценку в форме ноутбука.
- 9/3/2023 - Добавлен API для чата, используя поток приглашения. Позвольте конечному пользователю выбирать между функциями Azure в качестве API (конфигурация
ApiType
в веб-приложении) или с помощью управляемой конечной точки быстрого потока. - 2/2/2023 - добавлен API для ответа на вопрос, отвечающий с использованием потока быстрого. Позвольте конечному пользователю выбирать между функциями Azure в качестве API (конфигурация
ApiType
в веб-приложении) или с помощью управляемой конечной точки быстрого потока. - 31.08.2023 - Добавленный пример для LLMOPS с использованием быстрого потока. Repo будет добавлять гибкость для использования модели развернутой приглашения в качестве альтернативы текущим функциям Azure.
- 20.08.2023 - Добавлена поддержка файлов Markdown (в качестве файла ZIP) и удалил chunk_size = 1 из Azure OpenAieMbedding
- 8/11/2023 - Исправлена проблема с функцией потокового чата.
- 8/10/2023 - Разрывные изменения - Рефакторированный весь код для использования значения конфигурации
OpenAiEndPoint
вместо OpenAiService
. Это должно поддержать лучшие практики, поскольку они изложены в журнале предприятия с помощью управления Azure API. Вам OpenAiEndPoint
Если использование APIM будет URL API Gateway, а OpenAiKey
будет ключом продукта/неограниченного времени. Если не использовать APIM, вам не нужно менять ключ, но убедитесь, что OpenAiEndPoint
является полностью квалифицированным URL -адресом вашего развертывания AOAI. OpenAiService
больше не используется. Изменения действительно повлияли на функцию «Работа на чате на потоке», поэтому она отключена сейчас и будет включена после тестирования и исправления. - 9/9/2023 - Добавлено вызов функции в интерфейсе CHATGPT в качестве флажки. Образец демонстрирует способность вызывать функции. В настоящее время поддерживается погода API, фондовый API и Bing Search. Функциональный вызов находится в предварительном просмотре и поддерживается только из «версии API» из «2023-07-01-Preview», поэтому убедитесь, что вы обновляете существующую развертывание для использования этой версии. Подробная информация о функциях вызова. Для существующего развертывания добавьте
WeatherEndPoint
, WeatherHost
, StockEndPoint
, StockHost
и RapidApiKey
Configuration в Azure Function Function. - 5/5/2023 - Добавлен интерфейс чата с опцией «Поток». Эта функция позволяет вам передавать разговор с клиентом. Вам нужно будет добавить
OpenAiChat
, OpenAiChat16k
, OpenAiEmbedding
, OpenAiEndPoint
, OpenAiKey
, OpenAiApiKey
, OpenAiService
, OpenAiVersion
, PineconeEnv
, PineconeIndex
, PineconeKey
, RedisAddress
, RedisPassword
, RedisPort
Property в Apper App Service (WebApp) для обеспечения функции для Defortment. - 30.08.2023 - Удален неиспользованный код - SummaryAndqa и чат
- 28.07.2023 - начал удаление использования модели Davinci. Для сейчас удалили использование из всех функций, кроме мастерской. Рефакторированная функциональность суммирования на основе обратной связи, чтобы позволить пользователю указать приглашенные и заранее определенные темы, чтобы обобщить его.
- 26.07.2023 - Удалите игровую площадку Openai из инструментов разработчиков как расширенные функции, которые доступны в разделе CHATGPT.
- 25.07.2023 - Добавить вкладку для возможностей чата для поддержки возможностей CHATGPT непосредственно из модели вместо «чат на данные». Вам нужно будет добавить свойство
CHATGPT_URL
в Azure App Service (WebApp), чтобы включить функцию вне развертывания новой функции Azure. - 23.07.2023 - Добавлена остальная часть функции для пользовательского интерфейса PIB и начальная версия генерации колоды PowerPoint в качестве вывода. Для добавленной новой функции убедитесь, что вы добавляете переменную
FMPKEY
в конфигурацию WebApp. - 20.07.2023 - Добавлена функция для общения с данными PIB (SEC PISTINGS и транскрипт вызовов). Поскольку новая функция Azure развернута, убедитесь, что свойство
PIBCHAT_URL
добавляется в Azure WebApp с URL -адресом для ваших развернутых функций Azure - 18.07.2023 - Рефакторировал код PIB для решения некоторых проблем с производительностью и исправлений ошибок.
- 17.07.2023 - Удаленный интерфейс чата GPT3 с выходом на пенсию моделей "Davinci".
- 16.07.2023 - Первоначальная версия PIB UI (в настоящее время поддерживает 5 шагов - профиль компании, транскрипты вызовов, пресс -релизы, документы и рейтинги/рекомендации). Вам понадобится доступ к платной подписке (FMP или изменение в зависимости от того, к чему имеет доступ к вашему предприятию). Для использования с FMP вам нужно будет добавить
FmpKey
в функции Azure. Из -за круговой зависимости вам необходимо вручную добавить SecDocPersistUrl
и SecExtractionUrl
вручную в функциях Azure. - 14.07.2023 - Добавьте поддержку для модели GPT3.5 16K и способность отбрасывать документ> 4000 токенов с> 500 перекрытием. Для Chunksize> 4000 он будет по умолчанию в токен 16K для функциональности QNA и чата. Добавлен провайдера идентификации в приложение и аутентификация для интерфейса QNA и чата. Для модели GPT3.5 16K вам нужно будет добавить свойство
OpenAiChat16k
в приложение Azure Function. - 13.07.2023 - Позвольте конечному пользователю выбрать конфигурацию Chunksize и Chunkoverlap. Первоначальная версия шаблона переоценки.
- 7/11/2023 - Функциональный PIB Copilot в форме ноутбука.
- 8/8/2023 - добавлена функция для переименования сеанса для Chatgpt. Также добавлен пользовательский интерфейс для инструмента оценки. Эта функция фокусируется на выполнении оценки на основе LLM в вашем документе. Он автоматически генерирует тестовый набор данных (с вопросами и ответами) и выполняет оценку в этом документе, используя различные параметры и генерирует результаты оценки. Он построен на прочных функциях Lazure и реализован с использованием шаблона цепочки функций. Вам необходимо будет добавить
BLOB_EVALUATOR_CONTAINER_NAME
(убедитесь, что то же имя контейнера создается в учетной записи хранилища), а конфигурация RUNEVALUATION_URL
(URL -адрес разработки функции прочной функции) в веб -приложении Azure для существующего развертывания и, если вы хотите использовать функцию оценки. В развертывании функции Azure добавьте AzureWebJobsFeatureFlags
(значение inableWorkerIndexing) и настройки OpenAiEvaluatorContainer
. - 5/5/2023 - добавлена функция для удаления сеанса. Эта функция требует предварительного просмотра функции, и вам нужно будет включить это в учетной записи CosmoSDB по вашей подписке. Добавлен простой блок Try/Catch в случае, если вы не включили/развернули CosmoSDB для продолжения реализации CHATGPT.
- 7/4/2023 - Первоначальная версия хранения «сеансов» для интерфейса GPT3.5/CHATGPT. Сеанс и сообщения хранятся/извлечены из Cosmosdb. Убедитесь, что у вас есть сервис CosmosDB или создайте новый (для существующего развертывания). Вам нужно будет добавить настройки
CosmosEndpoint
, CosmosKey
, CosmosDatabase
и CosmosContainer
в приложении Azure Functions, так и в веб -приложении. - 25.06.2023 - записная книжка, демонстрирующая оценку качества ответа систематическим способом (автоматическое генерирование вопросов и цепочка оценки), поддерживая настройки QA LLM (размер чанка, перекрытие, метод внедрения). Обратитесь к записной книжке «Оценка» для получения дополнительной информации.
- 18.06.2023 - Добавьте страницу администратора, поддерживающую управление базой знаний.
- 17.06.2023 - Добавлена кнопка «Список вопросов» для задания функции вопроса, чтобы отобразить список всех вопросов, которые находятся в базе знаний. После трех свойств
SEARCHSERVICE
, SEARCHKEY
и KBINDEXNAME
(значение по умолчанию AOAIKB) необходимо добавить в службу приложений Azure, чтобы включить функцию кнопки «Список вопросов». - 16.06.2023 - Добавьте функцию, чтобы использовать Azure Cognitive Search в качестве векторного хранилища для хранения базы кэшированной знаний. Вопросы, которых нет в KB, отправляются в модель LLM, чтобы найти ответ через OAI, иначе он отвечает от кэшированного хранилища данных. Новое свойство
KbIndexName
должно быть добавлено в приложение Function Azure. Добавлено ноутбук, чтобы проверить эту функцию как часть семинара. TODO: Добавьте функцию, чтобы добавить вопрос в KB из интерфейса чата (и сделать ее на основе сеанса). В ближайшее время будет добавлена функция, чтобы «регенерировать» ответ от LLM (вместо кэшированного ответа). - 6/7/2023 - Добавьте Popenai Playground в инструменты разработчиков и первоначальную версию построения Copilot (на данный момент с ноутбуком, но в конечном итоге будет перемещена в качестве функции Copilot). Добавьте скрипт, запись и пример для использования речевой аналитики в реальном времени. Больше, чтобы быть добавленным в ближайшее время.
- 27.05.2023 - Добавьте контент семинара в виде ноутбуков, которые можно использовать для изучения/выполнения сценариев. Вы можете найти ноутбуки в папке мастерской. Подробная информация о контенте семинара доступна здесь.
- 26.05.2023 - Добавьте функцию суммирования, чтобы суммировать документ, используя материал, MapReduce или усовершенствование суммирования. Чтобы использовать эту функцию (при существующем развертывании), убедитесь, что вы добавляете конфигурацию
OpenAiSummaryContainer
для функционирования приложения и BLOB_SUMMARY_CONTAINER_NAME
в службу приложения Azure (убедитесь, что ввод, которое вы вводят, такое же, как и имя контейнера в хранилище Azure, и что вы создали контейнер). Вам также необходимо добавить конфигурацию PROCESSSUMMARY_URL
в службу приложений Azure (убедитесь, что ввод, которое вы вводят, такое же, как и URL функции Azure). - 24.05.2023 - Добавьте функцию в загрузку файлов CSV и агента CSV, чтобы ответить/чат на вопросы на табличных данных. Smart Agent также поддерживает ответные вопросы по данным CSV.
- 22.05.2023 - Первоначальная версия «умного агента», которая дает вам гибкость, чтобы поговорить со всеми документами, загруженными в решении. Это также позволяет вам поговорить со сценарием базы данных SQL. По мере добавления дополнительных функций агент будет продолжать опираться на это (например, поговорите с CSV/Excel или табличными данными)
- 21.08.2023 - Добавить раздел инструментов разработчика - Экспериментальный код преобразование кода и быстрого гуру.
- 17.05.2023 - Измените источник Edgar на когнитивный векторский хранилище поиска вместо Redis.
- 15.05.2023 - Добавьте опцию для использования «когнитивный поиск» в качестве векторного хранилища для хранения индекса. Когнитивный поиск Azure предлагает чистый векторный поиск и поиск гибридов, а также сложную систему повторного ранжирования, работающая от Bing в одном интегрированном решении. Зарегистрироваться. Поддержка загрузки документов Word.
- 5/10/2023 - Добавьте параметры о том, как должен быть написан документ. Если вы хотите использовать распознавание формы, убедитесь
FormRecognizerEndPoint
FormRecognizerKey
- 5/07/2023 - Опция доступна для выбора либо Azure OpenAI, либо OpenAI. Для Openai убедитесь, что у вас есть
OpenAiApiKey
в настройках функций Azure. Для Azure Openai вам понадобятся настройки конечной точки OpenAiKey
, OpenAiService
и OpenAiEndPoint
. Вы также можете выбрать эту опцию для чата/вопроса/SQL NLP/речевой аналитики и другие функции (со страницы настроек разработчика). - 5/03/2023 - Пароль, необходимый для загрузки и введенной страницы администратора, начиная с управления индексом
- 30.04.2023 - Добавлена начальная версия функции агента задачи. Автономные агенты - это агенты, которые предназначены для того, чтобы быть более длительными. Вы даете им одну или несколько долгосрочных целей, и они независимо выполняются для этих целей. Приложения объединяют использование инструмента и долгосрочную память. Начальная функция реализует Baby Agi с инструментами выполнения
- 29.04.2023 - Интеграция процесса AWS S3 с использованием S3, функции Lambda AWS и фабрики данных Azure (автоматическое развертывание еще недоступно, сценарии доступны в папке/развертывании/AWS)
- 28.04.2023 - Исправьте ошибки, цитаты и последующие вопросы по всему QA & Chat. Быстро немного ограничивает, чтобы ограничить ответ от документа.
- 25.04.2023 - начальная версия виртуального агента Power
- 21.04.2023 - Добавьте вкладку SQL Query & SQL Data в SQL NLP и исправить цитаты и последующие вопросы для чата и спросить функции
- 17.04.2023 - Аналитика речи в реальном времени и речь к тексту и текст в речь для чата и спроса. (Вы можете настроить функцию текста на речевую функцию из настройки разработчика. Вам понадобятся речевые службы Azure)
- 13.04.2023 - Добавьте новую функцию, чтобы поддержать задание вопросов в нескольких документах, используя векторный агент QA
- 8/8/2023 - Спросите свой SQL - с помощью агента базы данных SQL или с помощью цепочки базы данных SQL
- 29.03.2023 - Сценарий автоматического развертывания
- 23.03.2023 - Добавьте когнитивный поиск в качестве опции для хранения документов
- 19.03.2023 - Добавить реализацию чата GPT3
- 18.03.2023 - API для создания сводки по документам и примеру QA
- 17.03.2023
- Поддержать загрузку нескольких документов
- Исправление ошибок - реализация Redis VectorStore
- 16.03.2023 - Первоначальный выпуск, спросите свои данные и чат с вашими данными
Тестовый сайт
Чат и спросите свои данные
Функции
Список функций
Архитектура

Azure Architecture

QA над вашими данными с кэшем

QA LLM Оценка

Начиная
Начните
Конфигурация
Приложение и функциональная конфигурация приложения
Ресурсы
- Революционизируйте ваши предприятия с помощью CHATGPT: приложения следующего поколения с Azure OpenAI и когнитивный поиск
- Лазурный когнитивный поиск
- Azure Openai Service
- Redis Search
- Pinecone
- Магазин вектора когнитивного поиска
Вклад
Мы открыты для вкладов, будь то в форме новой функции, обновлять существующую функциональность или лучшую документацию. Пожалуйста, создайте запрос на привлечение, и мы рассмотрим и объединяем его.
Примечание
Адаптировано из репо на Openai-Cogsearch, Call Center Analytics, Auto Evaluator и Edgar Crawler