lad gpt下載 - lad gpt原始碼下載

lad gpt

Ai源碼

October 2023 Release

下載

在 WhatsApp 聊天中訓練語言模型

概述

此儲存庫有助於僅基於 WhatsApp 聊天訊息的字元級或單字級語言模型的訓練。模型訓練結束後，人們可以在 Whatsapp 聊天群組上與受過訓練的人開始一場綜合對話。

聊天訊息：我私下對模型進行了關於來自超過 8 個 Mio 字元的群組的 Whatsapp 聊天的訓練。 assets/input/chat.txt只是一個佔位符，將替換為實際的聊天訊息語料庫。
語言模型：此模型緊密遵循 Vaswani 等人在「Attention Is All You Need」（2017）中介紹的架構。 al.. 該模型的 pytorch 實現很大程度上受到 Andrew Kaparty 的視頻教程的啟發。
結果：雖然我的私人訓練模型的整體表現顯然無法與 sota 語言模型相比，但生成的文本清楚地展示了可識別的語言模式和詞彙。

資料夾結構

 |-- assets
|   |-- input
|   |   |-- chat.txt
|   |-- output
|   |   |-- contacts.txt
|   |   |-- vocab.txt
|   |   |-- train.pt
|   |   |-- valid.pt
|   |-- models
|   |   |--model.pt
|-- src
|   |-- chat.py
|   |-- model.py
|   |-- preprocess.py
|   |-- train.py
|   |-- utils.py
|-- config.py
|-- run.py

資產描述：

assets/input/chat.txt:輸入檔案需要是匯出的 WhatsApp 聊天記錄（無媒體）。
assets/output/:編碼的訓練/驗證資料和訓練後的模型將被寫入此位置。
assets/models/model.pt:經過訓練的 pytorch 模型物件。

模組說明：

src/preprocess.py:將聊天訊息轉換為編碼的 PyTorch 張量。資料分為訓練集和驗證集。
src/model.py:定義語言模型類別。
src/train.py:包含用於訓練語言模型的程式碼。
src/chat.py:包含與模型進行對話互動的函數。
src/utils.py:其他有用的實用函數。
run.py:帶有參數解析器的主腳本，用於呼叫三個操作（「預處理」、「訓練」、「聊天」）中的任何一個。
config.py:記錄預處理和模型訓練的參數。

如何開始

安裝：

 git clone https://github.com/bernhard-pfann/lad-gpt.git
cd lad-gpt
pip install -r requirements.txt

要充分利用此項目，您需要一個包含 WhatsApp 聊天訊息的 .txt 檔案。以下是將 WhatsApp 群組聊天匯出到 .txt 檔案的步驟：

對於安卓用戶：

打開 WhatsApp 並導航至群組聊天：在 Android 裝置上開啟 WhatsApp 應用程序，然後前往您要匯出的群組聊天。
點擊三個點：它們通常位於聊天視窗的右上角。
更多 -> 匯出聊天：從下拉清單中選擇“更多”，然後選擇“匯出聊天”。
選擇不帶媒體：您將可以選擇包含或排除媒體。選擇「無媒體」僅匯出簡訊。
選擇匯出方法：系統將提示您選擇匯出聊天的方式。您可以將其發送到您的電子郵件，然後從那裡下載為 .txt 檔案。

對於 iPhone 用戶：

開啟 WhatsApp 並導覽至群組聊天：在 iPhone 上開啟 WhatsApp 應用程式並導航至您要匯出的群組聊天。
點選群組名稱：位於聊天視窗頂部，可前往「群組資訊」。
向下捲動並匯出聊天：向下捲動，您將看到「匯出聊天」選項。點擊它。
選擇不帶媒體：將出現一個彈出窗口，詢問您是否要包含媒體檔案。選擇“無媒體”。
選擇匯出方法：選擇匯出聊天的選項，例如透過郵件。然後，您可以從電子郵件中下載文字檔案。

取得 .txt 檔案後，將其放置在assets/input目錄中，名為chat.txt 。然後你就可以出發了！

終端指令

輸入資料到位後，需要將聊天內容編碼為數值張量。編碼資料也分為訓練集和驗證集：

 python run.py preprocess

僅基於編碼的聊天資料從頭開始訓練語言模型。如果您想繼續訓練已有的模型，請設定--update 。

 python run.py train --update

要與經過訓練的模型發起聊天：

 python run.py chat

展開

附加信息

版本 October 2023 Release
類型 Ai源碼
更新時間 2024-12-30
大小 50MB
來自於 Github

相關應用

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GPT影視最新版

2023-10-30

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
node telegram bot api

Ai源碼

v0.50.0
typebot.io

Ai源碼

v3.1.2
python wechaty getting started

Ai源碼

1.0.0
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部