??中文|英文|文檔/Wiki | ❓提問/問題|討論/討論
安全/審計/便捷
擁抱臉下載
AutoAudit-7B,此版本是基於Alpaca-Lora訓練的示範版。它在網路安全領域表現出色,在英語方面取得了令人滿意的反響。然而,它目前缺乏上下文理解,需要更大的參數模型來解決這個限制。
AutoAudit-8B-Instruct,此版本在Llama3-8B-instruct的基礎上進行了微調,其在回答網路安全相關查詢方面的效能有了顯著提升。與 AutoAudit-7B 相比,此機型的基礎功能也大幅增強。
AutoAudit-Qwen,由於中國網路安全語料庫的可用性有限,該模型仍處於探索和規劃階段。
更多法學碩士即將推出
該計畫探索大型語言模型 (LLM) 在網路安全中的應用,其驅動力是該領域的複雜性和對強大防禦機制的迫切需求。網路安全涵蓋作業系統、網路協定、惡意軟體分析和威脅偵測等多個領域。隨著網路威脅的複雜性和規模不斷增長,法學碩士提供了一種透過先進的語言處理能力來增強威脅檢測、分析和回應的有前途的途徑。法學碩士具有解釋、產生和綜合大量數據的能力,使其成為解決複雜網路安全挑戰的變革性工具。
與傳統方法相比,法學碩士可以進行微調以適應不斷變化的威脅形勢,提供跨領域的知識連接和可操作的緊急應變。它們還可以自動執行重複的分析任務,整合多個來源的數據,並產生捕捉微妙威脅的風險評估,從而提高安全系統的適應性和彈性。因此,法學碩士在加強網路安全防禦框架、為專家提供增強的支援以及實現更全面和靈活的保護方面發揮著至關重要的作用。
為了交互方便並解決實際的安全審計場景,我們將 AutoAudit 模型與 ClamAV 結合起來創建安全掃描平台(前端受 Bootstrap 模板啟發)。如果您想要直接下載AutoAudit模型,可以存取HuggingFace以取得權重。
將此儲存庫的內容下載到本機或遠端伺服器:
git clone [email protected]:ddzipp/AutoAudit.git
cd AutoAudit
創建Conda環境:
conda create --name AutoAudit python=3.8
conda activate AutoAudit
安裝依賴項:
pip install -r requirements.txt
安裝 ClamAV 並將 ClamAV 加入環境路徑中。
在沙箱中設定 llama 模型和 Lora 權重的路徑:
sandbox/yahma/llama-7b-hf
sandbox/lilBuffaloEirc/autoaudit_20230703_attempt2
執行以下命令啟動專案:
python manage.py runserver
我們採用了 Self-Instruct 資料集組織方法,結合了人工註釋和自我生成的資料。資料集主要來自Github、Kaggle、安全網站以及公開的安全漏洞資料集。隨後,它經過清理和資料增強以建立對話資料。資料集嚴格依照Alpaca模型資料集格式組織,分為三個部分:指令、輸入和輸出。在輸出中,我們指定分析應包括詳細資訊(analysis)、安全評級(label)、安全風險(risk)以及相應的解決方案(solution)。有關詳細的資料集資訊(包括格式和組織),請參閱 AutoAudit 訓練資料。以下是一些範例:
問題 | 回答 | 主題 |
---|---|---|
請評估該語句是否有安全漏洞:" 或 pg_sleep ( TIME ) --" | 1.分析:此SQL語句似乎正在嘗試透過使用「pg_sleep」函數注入睡眠指令來進行SQL注入。它利用「pg_sleep」函數嘗試基於時間的盲目 SQL 注入攻擊。 | SQL分析 |
請分析這段Python程式碼是否有安全風險:"import socketnimport jsonnimport osnimport subprocessnimport base64nnclass Backdoor:n def init (self, ip, port):n self.connection = socket.socket(socket.AF_INET, socket.SOCK_STREAM)n self.connection.connect((ip, port))" | 1.分析:Python程式碼片段定義了一個名為「Backdoor」的類,其初始化方法為「 init 」。此類建立與指定 IP 位址和連接埠的套接字連線。它主要建立套接字連接,這是常見的網路操作。然而,實際的安全風險取決於類別的實作細節及其用法。錯誤處理,以減輕潛在的安全風險。 | Python程式碼分析 |
憑證撤銷清單 (CRL) 的用途是什麼? | 證書撤銷清單 (CRL) 的目的是列出在預定到期日期之前被頒發證書頒發機構 (CA) 撤銷的數位證書,表明它們不應再受信任。 | 安全知識問答 |
用於訓練目前模型的資料集的組成及其對應的比例如下:
為了簡化自動化資料集產生的流程,我們也更新了GPT Store中專門用於產生網路安全QA資料集的GPT,產生結果如下:
我要感謝我的朋友Eric Ma;與他一起不斷改進這個計畫是最有意義的經驗之一。我還要向香港中文大學深圳實驗室表示感謝,在那裡我學到了很多東西,並堅定了我進一步改進的方向。最後,向開源社群的每一位成員表示感謝。感謝您的支持與幫助。我會盡力開發我的項目,希望你能喜歡。