AutoAudit下载 - AutoAudit源代码下载

AutoAudit

其他源码

1.0.0

下载

AutoAudit-网络安全法学硕士

??中文|英语|文档/Wiki | ❓提问/问题|讨论/讨论

安全/审计/便捷
拥抱脸下载

AutoAudit系列型号

AutoAudit-7B，该版本是基于Alpaca-Lora训练的演示版。它在网络安全领域表现出色，在英语方面取得了令人满意的反响。然而，它目前缺乏上下文理解，需要更大的参数模型来解决这个限制。
AutoAudit-8B-Instruct，该版本在Llama3-8B-instruct的基础上进行了微调，其在回答网络安全相关查询方面的性能有了显着提升。与 AutoAudit-7B 相比，该模型的基础功能也得到了大幅增强。
AutoAudit-Qwen，由于中国网络安全语料库的可用性有限，该模型仍处于探索和规划阶段。
更多法学硕士即将推出

简介

该项目探索大型语言模型 (LLM) 在网络安全中的应用，其驱动力是该领域的复杂性和对强大防御机制的迫切需求。网络安全涵盖操作系统、网络协议、恶意软件分析和威胁检测等多个领域。随着网络威胁的复杂性和规模不断增长，法学硕士提供了一种通过先进的语言处理能力来增强威胁检测、分析和响应的有前途的途径。法学硕士具有解释、生成和综合大量数据的能力，使其成为解决复杂网络安全挑战的变革性工具。

与传统方法相比，法学硕士可以进行微调以适应不断变化的威胁形势，提供跨领域的知识连接和可操作的应急响应。它们还可以自动执行重复的分析任务，集成多个来源的数据，并生成捕获微妙威胁的风险评估，从而提高安全系统的适应性和弹性。因此，法学硕士在加强网络安全防御框架、为专家提供增强的支持以及实现更全面和灵活的保护方面发挥着至关重要的作用。

为了交互方便并解决实际的安全审计场景，我们将 AutoAudit 模型与 ClamAV 结合起来创建一个安全扫描平台（前端受 Bootstrap 模板启发）。如果您想直接下载AutoAudit模型，可以访问HuggingFace获取权重。

代理部署和使用

环境设置

将此存储库的内容下载到本地或远程服务器：

 git clone [email protected]:ddzipp/AutoAudit.git
cd AutoAudit

创建Conda环境：

 conda create --name AutoAudit python=3.8
conda activate AutoAudit

安装依赖项：
```
 pip install -r requirements.txt
```
安装 ClamAV 并将 ClamAV 添加到环境路径中。

在沙箱中设置 llama 模型和 Lora 权重的路径：

 sandbox/yahma/llama-7b-hf 
sandbox/lilBuffaloEirc/autoaudit_20230703_attempt2

运行以下命令启动项目：
```
 python manage.py runserver
```

数据集

我们采用了 Self-Instruct 数据集组织方法，结合了人工注释和自我生成的数据。数据集主要来源于Github、Kaggle、安全网站以及公开的安全漏洞数据集。随后，它经过清理和数据增强以构建对话数据。数据集严格按照Alpaca模型数据集格式组织，分为三部分：指令、输入和输出。在输出中，我们指定分析应包括详细信息（analysis）、安全评级（label）、安全风险（risk）以及相应的解决方案（solution）。有关详细的数据集信息（包括格式和组织），请参阅 AutoAudit 训练数据。以下是一些示例：

问题	回答	主题
请评估该语句是否存在安全漏洞：" 或 pg_sleep ( TIME ) --"	1.分析：该SQL语句似乎正在尝试通过使用“pg_sleep”函数注入睡眠命令来进行SQL注入。n 2.标签：高n 3.风险：给定的SQL语句存在很高的SQL注入风险。它利用“pg_sleep”函数尝试基于时间的盲目 SQL 注入攻击。n 4. 解决方案：实施适当的输入验证和参数化以防止 SQL 注入攻击。	SQL分析
请分析一下这段Python代码是否存在安全风险："import socketnimport jsonnimport osnimport subprocessnimport base64nnclass Backdoor:n def init (self, ip, port):n self.connection = socket.socket(socket.AF_INET, socket.SOCK_STREAM)n self.connection.connect((ip, port))"	1.分析：Python代码片段定义了一个名为“Backdoor”的类，其初始化方法为“ init ”。该类建立与指定 IP 地址和端口的套接字连接。n 2. 标签：低n 3. 风险：给定的 Python 代码片段具有较低的安全风险。它主要建立套接字连接，这是常见的网络操作。然而，实际的安全风险取决于类的实现细节及其用法。n 4. 解决方案：确保“后门”类及其用法具有适当的安全措施，例如适当的输入验证、安全通信协议、访问控制和错误处理，以减轻潜在的安全风险。	Python代码分析
证书吊销列表 (CRL) 的用途是什么？	证书吊销列表 (CRL) 的目的是列出在预定到期日期之前被颁发证书颁发机构 (CA) 吊销的数字证书，表明它们不应再受信任。	安全知识问答

用于训练当前模型的数据集的组成及其对应的比例如下：

数据集组成

为了简化自动化数据集生成的过程，我们还更新了GPT Store中专门用于生成网络安全QA数据集的GPT，生成结果如下：

GPT商店

未来计划

受 CyberPal 的启发，我们计划合成一个高质量的网络安全语料库：该数据集将包括开卷/闭卷问答、是/否问题、多项选择问答和思想链（CoT）。我们的目标是开源数据集和相应的代码，为网络安全研究社区提供宝贵的资源。
针对当前Agents的趋势，我们将进一步集成Nmap、Metasploit等安全工具，并参考MetaGPT等Agent框架，尽可能自动化网络安全操作。这将有助于简化安全任务并提高运营效率。
评估网络安全特定大型模型的安全性：我们计划评估与这些模型相关的潜在安全风险，例如可能的越狱或后门。这将确保模型在现实应用中保持安全和弹性，抵御对抗性威胁。