??中文|英语|文档/Wiki | ❓提问/问题|讨论/讨论
安全/审计/便捷
拥抱脸下载
AutoAudit-7B,该版本是基于Alpaca-Lora训练的演示版。它在网络安全领域表现出色,在英语方面取得了令人满意的反响。然而,它目前缺乏上下文理解,需要更大的参数模型来解决这个限制。
AutoAudit-8B-Instruct,该版本在Llama3-8B-instruct的基础上进行了微调,其在回答网络安全相关查询方面的性能有了显着提升。与 AutoAudit-7B 相比,该模型的基础功能也得到了大幅增强。
AutoAudit-Qwen,由于中国网络安全语料库的可用性有限,该模型仍处于探索和规划阶段。
更多法学硕士即将推出
该项目探索大型语言模型 (LLM) 在网络安全中的应用,其驱动力是该领域的复杂性和对强大防御机制的迫切需求。网络安全涵盖操作系统、网络协议、恶意软件分析和威胁检测等多个领域。随着网络威胁的复杂性和规模不断增长,法学硕士提供了一种通过先进的语言处理能力来增强威胁检测、分析和响应的有前途的途径。法学硕士具有解释、生成和综合大量数据的能力,使其成为解决复杂网络安全挑战的变革性工具。
与传统方法相比,法学硕士可以进行微调以适应不断变化的威胁形势,提供跨领域的知识连接和可操作的应急响应。它们还可以自动执行重复的分析任务,集成多个来源的数据,并生成捕获微妙威胁的风险评估,从而提高安全系统的适应性和弹性。因此,法学硕士在加强网络安全防御框架、为专家提供增强的支持以及实现更全面和灵活的保护方面发挥着至关重要的作用。
为了交互方便并解决实际的安全审计场景,我们将 AutoAudit 模型与 ClamAV 结合起来创建一个安全扫描平台(前端受 Bootstrap 模板启发)。如果您想直接下载AutoAudit模型,可以访问HuggingFace获取权重。
将此存储库的内容下载到本地或远程服务器:
git clone [email protected]:ddzipp/AutoAudit.git
cd AutoAudit
创建Conda环境:
conda create --name AutoAudit python=3.8
conda activate AutoAudit
安装依赖项:
pip install -r requirements.txt
安装 ClamAV 并将 ClamAV 添加到环境路径中。
在沙箱中设置 llama 模型和 Lora 权重的路径:
sandbox/yahma/llama-7b-hf
sandbox/lilBuffaloEirc/autoaudit_20230703_attempt2
运行以下命令启动项目:
python manage.py runserver
我们采用了 Self-Instruct 数据集组织方法,结合了人工注释和自我生成的数据。数据集主要来源于Github、Kaggle、安全网站以及公开的安全漏洞数据集。随后,它经过清理和数据增强以构建对话数据。数据集严格按照Alpaca模型数据集格式组织,分为三部分:指令、输入和输出。在输出中,我们指定分析应包括详细信息(analysis)、安全评级(label)、安全风险(risk)以及相应的解决方案(solution)。有关详细的数据集信息(包括格式和组织),请参阅 AutoAudit 训练数据。以下是一些示例:
问题 | 回答 | 主题 |
---|---|---|
请评估该语句是否存在安全漏洞:" 或 pg_sleep ( TIME ) --" | 1.分析:该SQL语句似乎正在尝试通过使用“pg_sleep”函数注入睡眠命令来进行SQL注入。n 2.标签:高n 3.风险:给定的SQL语句存在很高的SQL注入风险。它利用“pg_sleep”函数尝试基于时间的盲目 SQL 注入攻击。n 4. 解决方案:实施适当的输入验证和参数化以防止 SQL 注入攻击。 | SQL分析 |
请分析一下这段Python代码是否存在安全风险:"import socketnimport jsonnimport osnimport subprocessnimport base64nnclass Backdoor:n def init (self, ip, port):n self.connection = socket.socket(socket.AF_INET, socket.SOCK_STREAM)n self.connection.connect((ip, port))" | 1.分析:Python代码片段定义了一个名为“Backdoor”的类,其初始化方法为“ init ”。该类建立与指定 IP 地址和端口的套接字连接。n 2. 标签:低n 3. 风险:给定的 Python 代码片段具有较低的安全风险。它主要建立套接字连接,这是常见的网络操作。然而,实际的安全风险取决于类的实现细节及其用法。n 4. 解决方案:确保“后门”类及其用法具有适当的安全措施,例如适当的输入验证、安全通信协议、访问控制和错误处理,以减轻潜在的安全风险。 | Python代码分析 |
证书吊销列表 (CRL) 的用途是什么? | 证书吊销列表 (CRL) 的目的是列出在预定到期日期之前被颁发证书颁发机构 (CA) 吊销的数字证书,表明它们不应再受信任。 | 安全知识问答 |
用于训练当前模型的数据集的组成及其对应的比例如下:
为了简化自动化数据集生成的过程,我们还更新了GPT Store中专门用于生成网络安全QA数据集的GPT,生成结果如下:
我要感谢我的朋友Eric Ma;与他一起不断改进这个项目是最有意义的经历之一。我还要向香港中文大学深圳实验室表示感谢,在那里我学到了很多东西,并坚定了我进一步改进的方向。最后,向开源社区的每一位成员表示感谢。感谢您的支持和帮助。我会尽力开发我的项目,希望你能喜欢。