使用LLM與您的企業數據聊天
該示例演示了一些通過您自己的數據創建類似Chatgpt的體驗的方法。它使用Azure OpenAi服務訪問ChatGPT模型(GPT-35-Turbo和GPT3),以及矢量存儲(Pinecone,Redis等)或Azure認知搜索數據索引和檢索。
該存儲庫提供了上傳您自己的數據的方法,因此可以嘗試結束。
更新
- 3/30/2024-重組以保持聊天,聊天流,QNA,上傳和管理功能。所有其他人都將被轉移到自己的倉庫中。
- 3/10/2024-將及時流動版移至Entaoaipf
- 3/9/2024-高級抹布技術的初始版本和多模式抹布模式
- 2/28/2024-刪除了SEC分析功能,並在SEC中移至了自己的存儲庫
- 1/28/2024-刪除PitchBook功能,因為它們被移至PIB的倉庫中
- 1/19/2024-更新了Python軟件包和OpenAI> 1.0。對所有Python API進行了更改,以破壞Openai和Langchain引入的變化。
- 10/12/2023-自動提示的初始版本。現在,支持Pinecone索引,但是對認知搜索和REDIS的支持將很快更新。
- 9/29/2023-添加了評估提示流。一旦以Azure ML創建的及時流,可以將您的現有運行附加到以下評估過程中進行評估:
- 地面 - 問答基礎評估流將通過利用最先進的大語言模型(LLM)來衡量響應的質量和安全性來評估問答環節增強生成系統。與傳統的數學測量相比,利用GPT-3.5作為語言模型來協助測量旨在與人類評估達成很高的一致性。 gpt_groundedness(在上下文中):衡量模型的預測答案是如何基於上下文的。即使LLM的響應是真實的,即使在上下文中進行驗證,這種響應也被認為是沒有基礎的。
- ADA相似性 - 問答ADA_SIMILITY評估流將通過利用最先進的大語言模型(LLM)來衡量響應的質量和安全性來評估問答環節增強生成系統。與傳統的數學測量相比,利用GPT-3.5作為語言模型來協助測量旨在與人類評估達成很高的一致性。 ADA相似性評估流程使您可以通過LLM輔助ADA相似性METRI ADA_SIMILITY評估和評估模型:測量模型預測和地面真相的ADA嵌入的餘弦相似性。 ADA_SIMILARITY是[0,1]範圍內的值。
- 一致性 - 問答連貫評估流將通過利用最先進的大語言模型(LLM)來衡量響應的質量和安全性來評估問答環節增強生成系統。與傳統的數學測量相比,利用GPT-3.5作為語言模型來協助測量旨在與人類評估達成很高的一致性。相干評估流程使您可以通過LLM輔助相干度量評估和評估模型。 GPT_Coherence:測量模型預測的答案中所有句子的質量以及它們如何自然地融合在一起。連貫性的評分為1到5,其中1分是最差的,而5則是最好的。
- 相似性 - 問答相似性評估流將通過利用最先進的大語言模型(LLM)來衡量響應的質量和安全性來評估問答環節增強生成系統。與傳統的數學測量相比,利用GPT-3.5作為語言模型來協助測量旨在與人類評估達成很高的一致性。相似性評估流程使您可以通過LLM輔助相似性度量評估和評估模型。 gpt_simerity:衡量用戶提供的地面真相答案與模型預測答案之間的相似性。相似性的評分為1-5,其中1個最差,而5則是最好的。
- F1分數 - 問答得分評分流程將根據預測的答案和地面真相中的單詞計數,使用F1得分來評估問答環節增強生成系統。 F1得分評估流程使您可以使用地面真相的歸一化版本和預測的答案之間使用常規代幣數量來確定F1得分度量。 F1得分:根據預測的答案和地面真理中的令牌計算F1得分。 F1得分是[0,1]範圍內的值。接地度量的評分為1-5,其中1個最差,而5則是最好的。
- 9/22/2023-為SQLASK添加了提示。確保將
PFSQLASK_URL
和PFSQLASK_KEY
配置值添加到部署的端點以啟用該功能。還要確保將SynapseName
, SynapsePool
, SynapseUser
和SynapsePassword
配置值添加到entaoai
提示連接中。移動刪除會話功能以供chatgpt到管理頁面。 - 9/20/2023-添加的配置,以允許最終用戶根據我們共享的最佳實踐更改認知搜索矢量商店索引(混合,相似性/矢量和混合重新升級)的搜索類型。 QNA,聊天和提示流進行修改。 QNA和CHAT正在實現Langchain的自定義矢量商店實現,並使用助手功能及時流動。修復了QNA/CHAT/提示流的問題,未生成後續問題。
- 9/18/2023-重構SQL NLP不使用Langchain數據庫代理/鏈,而是使用自定義提示。
- 9/15/2023-將Azure搜索軟件包修改為11.4.0b9,然後將Langchain改為最新版本。添加了在QNA和聊天的提示流上進行評估的功能。 BERT PDF和評估數據可用於在迅速流中執行批處理和評估。示例筆記本顯示了流程和E2E過程。 BERT聊天文件夾允許您以筆記本的形式測試E2E提示流,批處理運行和評估。
- 9/3/2023-使用提示流添加了用於聊天的API。允許最終用戶在Azure函數中選擇為API(Web App中的
ApiType
配置)或使用提示流管理的端點。 - 9/2/2023-添加了使用提示流以回答的API。允許最終用戶在Azure函數中選擇為API(Web App中的
ApiType
配置)或使用提示流管理的端點。 - 8/31/2023-使用提示流的LLMOPS添加了示例。存儲庫將添加靈活性,以使用快速流部部署模型作為當前Azure功能的替代方案。
- 8/20/2023-添加了對Markdown文件(作為zip文件)的支持,並從Azure Openaiembedding中刪除了Chunk_size = 1
- 8/11/2023-通過流聊天功能修復了問題。
- 8/10/2023-打破變化- 重構所有代碼以使用
OpenAiEndPoint
配置值而不是OpenAiService
。它是為了支持最佳實踐,因為它們在企業登錄中通過Azure API管理概述。如果使用APIM為API網關URL,則您的OpenAiEndPoint
, OpenAiKey
將是產品/無限密鑰。如果不使用APIM,則不需要更改鑰匙,而是確保OpenAiEndPoint
是AOAI部署的完全合格的URL。不再使用OpenAiService
。更改確實會影響流功能上的聊天工作的工作,因此它目前已禁用,並且一旦測試和修復,將啟用。 - 8/9/2023-在Chatgpt接口中添加了函數為複選框。樣本證明了調用功能的能力。目前支持天氣API,股票API和BING搜索。函數調用在預覽中,僅來自“ 2023-07-01-PREVIEW”的“ API版本”,因此請確保您更新現有部署以使用該版本。有關通話功能的詳細信息。對於現有部署,將Azure功能應用程序添加到
WeatherEndPoint
, WeatherHost
,Weatherhost, StockEndPoint
, StockHost
和RapidApiKey
配置。 - 8/5/2023-添加了帶有“流”選項的聊天接口。此功能使您可以將對話流式傳輸到客戶端。 You will need to add
OpenAiChat
, OpenAiChat16k
, OpenAiEmbedding
, OpenAiEndPoint
, OpenAiKey
, OpenAiApiKey
, OpenAiService
, OpenAiVersion
, PineconeEnv
, PineconeIndex
, PineconeKey
, RedisAddress
, RedisPassword
, RedisPort
property in Azure App Service (Webapp) to enable the feature for existing deployment. - 7/30/2023-刪除未使用的代碼 - 摘要和聊天
- 7/28/2023-開始刪除Davinci模型使用情況。現在,除了研討會外,從所有功能中刪除了使用。基於反饋重新分配摘要功能,以允許用戶指定提示和預定義的主題以總結它。
- 7/26/2023-從開發人員工具中刪除OpenAI Playground,作為ChatGpt部分中可用的高級功能。
- 7/25/2023-為聊天功能添加選項卡,以直接從模型中支持Chatgpt功能,而不是“聊天”。您需要在Azure App Service(WebApp)中添加
CHATGPT_URL
屬性,以啟用部署新Azure功能的功能。 - 7/23/2023-添加了PIB UI的其餘功能,並將生成PowerPoint甲板作為輸出的初始版本。對於新功能,請確保您將
FMPKEY
變量添加到WebApp配置中。 - 7/20/2023-與PIB數據交談的添加功能(SEC備案和收入呼叫成績單)。因為部署了新的Azure函數,請確保使用
PIBCHAT_URL
屬性添加到Azure WebApp中,並使用您已部署的Azure函數將URL添加到Azure WebApp - 7/18/2023-重構PIB代碼以解決一些性能問題和錯誤修復。
- 7/17/2023-刪除了“ Davinci”型號退休的GPT3聊天界面。
- 7/16/2023- PIB UI的初始版本(當前支持5個步驟 - 公司資料,呼叫筆錄,新聞稿,SEC申請和評級/建議)。您將需要訪問付費訂閱(FMP或根據企業的訪問權限進行修改)。要與FMP一起使用,您需要在Azure功能中添加
FmpKey
。由於循環依賴性,您需要在Azure函數中手動添加SecDocPersistUrl
和SecExtractionUrl
。 - 7/14/2023-添加對GPT3.5 16K型號的支持,並能夠用> 500重疊的4000個令牌塊構成文檔。對於塊> 4000,QNA和聊天功能都將默認為16K令牌。將身份提供商添加到應用程序和QNA和聊天接口的身份驗證中。對於GPT3.5 16K型號,您需要在Azure函數應用中添加
OpenAiChat16k
屬性。 - 7/13/2023-允許最終用戶選擇Chunksize和ChunkoverLap配置。覆蓋提示模板的初始版本。
- 7/11/2023-筆記本形式的功能性PIB副副詞。
- 7/8/2023-添加了該功能以重命名ChatGpt的會話。還為評估器工具添加了UI。此功能著重於對您的文檔進行基於LLM的評估。它可以自動生成測試數據集(帶有問答),並使用不同的參數對該文檔進行分級並生成評估結果。它建立在Azure耐用功能上,並使用功能鏈接模式實現。您將需要在Azure Web應用程序中添加
BLOB_EVALUATOR_CONTAINER_NAME
(確保在存儲帳戶中創建相同的容器名稱)和RUNEVALUATION_URL
(持久功能部署的URL)配置,以進行現有部署,如果您想使用評估器功能。在Azure函數部署中,添加AzureWebJobsFeatureFlags
(value enableWorkerIndexing)和OpenAiEvaluatorContainer
設置。 - 7/5/2023-添加了該功能以刪除會話。該功能需要預覽中的功能,您需要在訂閱上的CosmosDB帳戶上啟用該功能。如果您尚未啟用/部署COSMOSDB繼續執行ChatGpt實現,則添加了簡單的嘗試/捕獲塊。
- 7/4/2023- gpt3.5/chatgpt接口的“ sessions”的初始版本。會話和消息從COSMOSDB存儲/檢索。確保已提供COSMOSDB服務或創建新的服務(用於現有部署)。您需要在Azure函數應用程序和Web應用程序中添加
CosmosEndpoint
, CosmosKey
, CosmosDatabase
和CosmosContainer
設置。 - 6/25/2023-筆記本上展示了以系統的方式評估答案質量的評估(自動生成問題和評估鏈),支持LLM QA設置(塊大小,重疊,嵌入技術)。有關更多信息,請參閱評估器筆記本。
- 6/18/2023-添加管理頁面支持知識庫管理。
- 6/17/2023-添加了“問題列表”按鈕,以提出問題功能,以顯示知識庫中所有問題的列表。在三個屬性
SEARCHSERVICE
之後,需要將SEARCHKEY
和KBINDEXNAME
(AOAIKB的默認值)添加到Azure應用程序服務中,以啟用“問題列表”按鈕功能。 - 6/16/2023-將功能添加到使用Azure認知搜索作為矢量商店來存儲緩存的知識庫。 KB中未使用的問題將發送到LLM模型,以通過OAI找到答案,否則將其從緩存的數據存儲中響應。新屬性
KbIndexName
需要添加到Azure函數應用程序中。在研討會的一部分中添加了筆記本以測試該功能。 TODO:添加功能以將問題添加到聊天界面中的KB(並基於會話)。 LLM的“再生”答案的進一步功能(而不是緩存答案)將很快添加。 - 6/7/2023-在開發人員工具中添加OpenAI遊樂場和構建Copilot的初始版本(現在使用筆記本,但最終將作為Copilot功能移動)。為實時語音分析用例添加腳本,錄製和示例。更快添加更多。
- 5/27/2023-以筆記本的形式添加講習班內容,可以利用這些筆記本,以學習/執行方案。您可以在研討會文件夾中找到筆記本。有關研討會內容的詳細信息,請參見此處。
- 5/26/2023-添加摘要功能以使用東西,mapReduce或完善摘要來匯總文檔。要使用此功能(在現有部署上)確保將
OpenAiSummaryContainer
配置添加到功能應用程序和BLOB_SUMMARY_CONTAINER_NAME
配置到Azure App Service(確保輸入的值與Azure存儲中的容器名稱相同,並且您已經創建了容器)。您還需要將PROCESSSUMMARY_URL
配置添加到Azure應用程序服務(確保輸入的值與Azure函數URL相同)。 - 5/24/2023-將功能添加到上傳CSV文件和CSV代理以回答/聊天問題。 Smart Agent還支持回答有關CSV數據的問題。
- 5/22/2023-“智能代理”的初始版本,可靈活地與解決方案中上傳的所有文檔進行交談。它還使您可以與SQL數據庫方案進行交談。隨著更多功能的添加,代理商將繼續基於此功能(例如,與CSV/Excel或表格數據交談)
- 5/21/2023-添加開發人員工具部分 - 實驗代碼轉換和提示大師。
- 5/17/2023-將EDGAR源更改為認知搜索向量存儲而不是Redis。
- 5/15/2023-添加使用“認知搜索”作為存儲索引的矢量存儲的選項。 Azure認知搜索提供了純粹的矢量搜索和混合檢索 - 以及由單個集成解決方案中Bing提供支持的複雜重新排列系統。報名。支持上傳Word文檔。
- 5/10/2023-添加有關如何構成文檔的選項。如果要使用表單識別器,請確保創建表單識別器資源,並配置適當的應用程序設置
FormRecognizerKey
和FormRecognizerEndPoint
。 - 5/07/2023-可以選擇Azure Openai或Openai的選項。對於OpenAI,請確保您在Azure功能設置中具有
OpenAiApiKey
。對於Azure OpenAi,您將需要OpenAiKey
, OpenAiService
和OpenAiEndPoint
端點設置。您還可以選擇該選項進行聊天/問題/SQL NLP/語音分析和其他功能(從開發人員設置頁面)。 - 5/03/2023-上傳和介紹的管理頁面所需的密碼從索引管理開始
- 4/30/2023-添加了任務代理功能的初始版本。自主代理是設計為長期運行的代理商。您給他們一個或多個長期目標,他們獨立執行這些目標。這些應用程序結合了工具用法和長期內存。最初的功能通過執行工具實現嬰兒AGI
- 4/29/2023 -AWS S3過程集成使用S3,AWS Lambda功能和Azure Data Factory(尚不可用的自動部署,腳本可在/部署/AWS文件夾中可用)
- 4/28/2023-修復了質量檢查和聊天的錯誤,引用和後續問題。及時限制了一些限制以限製文檔的響應。
- 4/25/2023-功率虛擬代理的初始版本
- 4/21/2023-將SQL查詢和SQL數據選項卡添加到SQL NLP,並修復引用和聊天的後續問題
- 4/17/2023-實時語音分析和對聊天和詢問功能的文本和文本的語音。 (您可以將文本配置為開發人員設置的語音功能。您將需要Azure Speek Services)
- 4/13/2023-添加新功能以支持在多個文檔上使用Vector QA代理提出問題
- 4/8/2023-詢問您的SQL-使用SQL數據庫代理或使用SQL數據庫鏈
- 3/29/2023-自動部署腳本
- 3/23/2023-添加認知搜索作為存儲文檔的選項
- 3/19/2023-添加GPT3聊天實現
- 3/18/2023 -API生成文檔和样本QA的摘要
- 3/17/2023
- 支持上傳多個文檔
- 錯誤修復 - redis vectorstore實現
- 3/16/2023-初始發布,詢問您的數據並與數據聊天
測試網站
聊天並詢問您的數據
特徵
功能列表
建築學

Azure架構

質量質量檢查與您的數據有關

QA LLM評估

入門
開始
配置
應用和功能應用程序配置
資源
- 用chatgpt革新您的企業數據:w/ azure openai和認知搜索的下一代應用程序
- Azure認知搜索
- Azure Openai服務
- REDIS搜索
- 松果
- 認知搜索向量商店
貢獻
無論是以新功能的形式,更新現有功能還是更好的文檔,我們都對貢獻開放。請創建一個拉請請求,我們將審查並合併它。
筆記
改編自Openai-Cogsearch的存儲庫,Call Center Analytics,Auto評估器和Edgar Crawler