构建大型人工智能模型有一个学习曲线,并且是时间和资源密集型的。直到最近,我们还认为预训练的人工智能模型权重是不明确的二维十进制数组,但如果还有更多的东西呢?
今天我们想分享我们如何探索人工智能模型权重,但首先让我们看看我们是如何做到这一点的。
我们阅读了这些关键论文
使用深度卷积神经网络进行 ImageNet 分类
您所需要的就是关注
要点/亮点
关键问题
还有什么可以处理矩阵和高分辨率浮点 32 数据? (TIFF 图像)?
为什么我们不能重用这些具有大型高分辨率数据集的系统中的类似技术,以使用不同类型的迭代器来导航“权重”?凭借当前在磁盘上加载 100 GB 文件的 Rust 和 mmap 性能,谁知道这种方法是否可以在没有 GPU 的情况下适用于仅限于 CPU 的较小模型。
缺少/需要哪些技术才能开始?
什么
我们构建了一个原型,用于提取并希望确定权重:
关联回原始源训练数据
经过许多代训练的改变
似乎代表了一个密集的 3D 训练知识领域,保存为嵌入式“权重”(未经证实,但这是我们基于似乎有效的技术的假设)
为什么
我们想了解法学硕士为何如此特殊,以及权重如何融入这项创新技术。
通过选择花时间尝试查看 LLM 权重是什么,我们相信我们可以应用众所周知的可视化技术来分析人脑扫描,以提取、识别、重用和审计权重。
在大型生成式 AI Transformer 权重广泛使用之前,这些类型的密集、高分辨率训练数据集非常昂贵且不经常共享
如何
我们使用数字信号处理算法 (DSP) 构建此原型,用于高分辨率数据的体积分析,并将分析引擎与 Blender(一种开源可视化工具)结合起来。
我们将开源并跟踪人工智能如何从头开始学习,并使用 Blender 导出和分享权重的样子。
通过选择使用 Blender 分析 3D 体积中的模型权重,我们内置了动画功能,使我们能够设计用于捕获时间序列训练数据集的初始 v1 API。该训练数据集专注于捕获 AI 基础模型如何使用体积数据的高性能权重分析在每个训练阶段进行学习。
我们认为,我们需要分享这些模型的外观,以便我们能够理解它们并训练人工智能来构建和审核自身。
我们也想看看专家的混合是什么样子(下载下面最新的 Dolphin 2.5 Mixtral 8x7B STL/glTF 网格版本)。
该存储库用于分析、提取、可视化和重用生成式 AI 权重,以期构建更准确的 AI 模型并审计/扫描静态权重,以识别风险的知识领域。
注意:今天的版本仅包括如何分析、提取和可视化现有模型权重。现在我们可以直观地了解人工智能模型的学习方式,接下来就是基础模型训练。培训可视化将从教授一个新的 AI 模型开始,该模型涉及“bampe-weights 存储库如何集成 numpy、pandas 和 Blender”。在共享之前,我们有大约 190 个 python/(任务、提示、答案)文件需要组织。
该存储库正在探索模型随着时间的推移学习的可视化,并从提取的“权重形状”构建训练数据集,以构建和预测新的 AI 模型权重(希望也比传统训练方法更快)。
这是 Llama 2 7B Chat GPTQ 在 Blender 中的样子,并使用此存储库导出为 gif:
以下 google 驱动器文件夹包含大型语言模型 glTF 和 STL 可视化的新兴索引。文件范围从 ~1 MB 到 +2 GB。
如果您想查看新型号/密度,请联系我们!
如果 STL 文件足够小,那么 GitHub 可以自动渲染 3D 网格。注意:目前在移动设备上查看 GitHub STL 并不理想,但在桌面上,您可以使用鼠标滚轮反向放大图层并使用鼠标左/右键旋转:
我们尝试保持在 50 MB 限制以下,并将资产存储在 GitHub 上的存储库中 - https://github.com/matlok-ai/gen-ai-datasets-for-bampe-weights/docs/images/blender
在容器中自托管 Blender,以帮助查看生成式 AI 权重在本地的样子:
已包含导出的 STL/GLB 文件的 Blender 演示容器映像
matlok/blender-ai-demos 映像是从 LinuxServer Blender 映像创建的,包含可在浏览器中查看的 3D STL 和 GLB 文件。 Blender-ai-demos 提取的容器映像在磁盘上的大小 >4.0 GB,并使用大约 3 GB 的 RAM 来处理 >40 MB 的 STL 或 glTF 文件:
演示可视化可在容器内的此目录中找到:
/config/bampe-可视化
码头工人
docker rm blender; docker-compose -f compose/blender-demos.yaml up -d
波德曼
podman rm -t 0 -f blender; podman-compose -f compose/blender-demos.yaml up -d
基础 Linux 服务器镜像
运行 LinuxServer/docker-blender 映像 (lscr.io/linuxserver/blender:latest) 并生成新的 STL/GLB 文件,这些文件可以使用主机和 Blender 容器之间已安装的卷( .blender目录)进行查看。 docker-blender 提取的容器映像在磁盘上约为 3 GB。
码头工人
docker rm blender; docker-compose -f compose/blender-demos.yaml up -d
波德曼
podman rm -t 0 -f blender; podman-compose -f compose/base.yaml up -d
注意:新创建的视觉工件(STL 和 glTF glb 文件)仅在 Blender 容器内的此目录中重新启动容器后才会显示:
/配置/班佩
在浏览器中打开 Blender
Blender 正在监听这个 url:
http://本地主机:3000
手动加载 3D Blender AI 可视化
Blender 在浏览器中运行后,您可以通过单击以下菜单导入 STL 或 glTF 文件:
文件
进口
STL或glTF
文件位于/config/bampe或/config/bampe-visualizations中,具体取决于正在运行的容器版本
使用Shift + `启用鼠标导航模式,使用 W、A、S、D 进行第一人称移动。
按住Shift按钮也会以涡轮速度移动。
打开编辑->首选项->导航->飞行和行走->行走切换箭头
调整鼠标灵敏度-> 0.1
调整步行速度-> 20 m/s
该存储库用于研究使用预训练的人工智能权重构建人工智能的替代方法。这是一项正在进行的工作,因此请参阅设置开发环境以获取有关从命令行运行它的更多详细信息。
我们可以使用在线工具共享和查看这些形状。
该存储库在以下平台上进行了测试: