graph gpt下载 - graph gpt源代码下载

graph gpt

其他源码

v0.4.0

下载

GraphGPT：使用生成式预训练 Transformer 进行图学习

该存储库是 PyTorch 中“GraphGPT：使用生成式预训练 Transformers 进行图学习”的官方实现。

GraphGPT：使用生成式预训练 Transformer 进行图学习
赵其芳、任卫东、李天宇、徐潇潇、刘红

更新：

2024年10月13日

v0.4.0 发布。检查CHANGELOG.md了解详细信息。
在 3 个大型 ogb 数据集中实现 SOTA：
- PCQM4M-v2（无 3D）：0.0802（之前的 SOTA 0.0821）
- ogbl-ppa：68.76（之前的 SOTA 65.24）
- ogbl-引用2：91.15（之前的SOTA 90.72）

2024年8月18日

v0.3.1 发布。检查CHANGELOG.md了解详细信息。

2024年7月9日

v0.3.0 发布。

2024年3月19日

v0.2.0 发布。
为图级地图样式数据集实现permute_nodes ，以增加欧拉路径的变化，并产生更好、更稳健的结果。
添加StackedGSTTokenizer使得语义（即节点/边属性）标记可以与结构标记堆叠在一起，并且序列的长度将减少很多。
重构代码。

2024年1月23日

v0.1.1，修复common-io包的bug。

2024年1月3日

代码的初始发布。

未来的方向

缩放法则：GraphGPT 模型的缩放限制是多少？

众所周知，用文本数据训练的GPT可以扩展到数千亿个参数，并且不断提高其能力。
文本数据可以提供数万亿个标记，并且具有非常高的复杂性，并且它拥有大量的知识，包括社会知识和自然知识。
相比之下，没有节点/边属性的图数据仅包含结构信息，与文本数据相比，结构信息相当有限。结构背后的大多数隐藏信息（例如，度数、子结构的数量等）可以使用像networkx这样的包来精确计算。因此，来自图结构的信息可能无法支持模型大小的缩放，直到数十亿个参数。
- 我们对各种大型图数据集的初步实验表明，我们可以将 GraphGPT 扩展到 4 亿+ 参数，同时提高性能。但我们无法进一步改善结果。这可能是由于我们的实验不够充分。但这可能是图数据固有的局限性造成的。
具有节点/边属性的大型图数据集（一个大图或大量小图）可能能够为我们训练大型 GraphGPT 模型提供足够的信息。即便如此，一个图数据集可能还不够，我们可能需要收集各种图数据集来训练一个 GraphGPT。
- 这里的问题是如何为来自各种图数据集的边/节点属性定义通用分词器。

高质量图数据：用于训练 GraphGPT 执行一般任务的高质量图数据是什么？

例如，如果我们想训练一个模型来完成各种分子理解和生成任务，我们应该使用什么样的数据？
- 根据我们的初步调查，我们将 ZINC (4.6M) 和 CEPDB (2.3M) 添加到预训练中，在针对同光间隙预测任务微调 PCQM4M-v2 时没有观察到任何增益。可能的原因如下：
  - #结构#分子图背后的图形模式相对简单。
    - 像链或 5/6 节点环这样的图形模式非常常见。
    - 每个节点平均有 2 个边，这意味着原子平均有 2 个键。
  - #语义#构建有机小分子的化学规则很简单：碳原子有4个键，氮原子有3个键，氧原子有2个键，氢原子有1个键，依此类推。简单来说，只要满足原子的键数，就可以生成任何分子。
  - 结构和语义的规则都非常简单，即使是中等模型也可以从中等规模的数据集中学习。所以添加额外的数据并没有帮助。我们使用 3.7M 分子数据预训练小型/中型/基础/大型模型，它们的损失非常接近，表明在预训练阶段扩大模型大小的收益有限。
其次，如果我们想为任何类型的图结构理解任务训练一个模型，我们应该使用什么样的数据？
- 我们应该使用来自社交网络、引文网络等的真实图数据，还是只使用合成图数据，例如随机鄂尔多斯-仁义图？
- 我们的初步实验表明，使用随机图预训练GraphGPT有助于模型理解图结构，但不稳定。我们怀疑这与预训练和微调阶段的图结构分布有关。例如，如果每个节点的边数相似，节点数相似，那么预训练和微调范式效果很好。
- #通用性# 那么，如何训练 GraphGPT 模型来普遍理解任何图结构呢？
这又回到了之前关于缩放定律的问题：什么是合适的、高质量的图数据来不断扩展 GraphGPT，使其能够很好地完成各种图任务？

Few-shot：GraphGPT 能否获得 Few-shot 能力？

如果可以的话，如何设计训练数据让GraphGPT能够学习呢？
从我们对 PCQM4M-v2 数据集的初步实验来看，观察到不少镜头学习能力！但这并不意味着不能。可能是由于以下原因：
- 模型不够大。我们使用具有约 100M 参数的基本模型。
- 训练数据不够。我们只使用 370 万个分子，这仅提供有限的训练标记。
- 训练数据的格式不适合模型获得少样本能力。

概述：

Alt text

我们提出了 GraphGPT，这是一种通过自监督生成预训练图欧拉变换器（GET）进行图学习的新模型。我们首先介绍 GET，它由一个普通的 Transformer 编码器/解码器主干和一个转换组成，该转换将每个图或采样子图转换为使用欧拉路径可逆地表示节点、边和属性的标记序列。然后，我们使用下一个令牌预测 (NTP) 任务或计划的屏蔽令牌预测 (SMTP) 任务来预训练 GET。最后，我们根据监督任务对模型进行微调。这种直观而有效的模型在大规模分子数据集 PCQM4Mv2、蛋白质-蛋白质关联数据集 ogbl-ppa 上实现了优于或接近最先进的图形、边缘和节点级任务的结果、来自开放图基准 (OGB) 的引文网络数据集 ogbl-itation2 和 ogbn-蛋白质数据集。此外，生成式预训练使我们能够训练 GraphGPT 高达 2B+ 的参数，并且性能不断提高，这超出了 GNN 和之前的图转换器的能力。

图到序列

将欧拉图转换为序列后，有多种不同的方法将节点和边属性附加到序列。我们将这些方法命名为short 、 long和prolonged 。

给定图，我们首先对其进行欧拉化，然后将其转换为等价序列。然后，我们循环地重新索引节点。

假设图有1个节点属性和1个边属性，则short 、 long 、 prolong方法如上所示。

上图中， n1 、 n2和e1表示节点和边属性的标记， [p]表示填充标记。

循环节点重新索引

重新索引节点序列的一种直接方法是从 0 开始并递增地添加 1。这样，小索引的 token 将得到充分的训练，而大索引则不会。为了克服这个问题，我们提出了cyclical re-index ，它以给定范围内的随机数开始，例如[0, 255] ，然后递增 1。达到边界后，例如255 ，下一个节点索引将为 0 。

结果

过时了。即将更新。

图级任务：PCQM4M-v2 数据集

边缘级任务：ogbl-ppa 数据集

节点级任务：ogbn-蛋白质数据集

安装

克隆这个存储库

git clone https://github.com/alibaba/graph-gpt.git

安装requirements.txt中的依赖项（使用Anaconda，在GPU V100和A100上使用py38、pytorch-1131和CUDA-11.7、11.8和12.1进行测试）

conda create -n graph_gpt python=3.8 pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia
conda activate graph_gpt
cd graph-gpt
pip install -r ./requirements.txt
pip install torch-scatter torch-sparse -f https://data.pyg.org/whl/torch-1.13.1+cpu.html
sudo apt-get install bc

数据集

数据集是使用 python 包 ogb 下载的。

当您运行./examples中的脚本时，将自动下载数据集。

然而，数据集PCQM4M-v2很大，下载和预处理可能会出现问题。我们建议cd ./src/utils/和python dataset_utils.py分别下载和预处理数据集。

跑步

预训练：修改./examples/graph_lvl/pcqm4m_v2_pretrain.sh中的参数，例如dataset_name 、 model_name 、 batch_size 、 workerCount等，然后运行./examples/graph_lvl/pcqm4m_v2_pretrain.sh使用 PCQM4M-v2 预训练模型数据集。
- 要运行玩具示例，请直接运行./examples/toy_examples/reddit_pretrain.sh 。
微调：修改./examples/graph_lvl/pcqm4m_v2_supervised.sh中的参数，例如dataset_name 、 model_name 、 batch_size 、 workerCount 、 pretrain_cpt等，然后运行./examples/graph_lvl/pcqm4m_v2_supervised.sh与下游任务进行微调。
- 要运行玩具示例，请直接运行./examples/toy_examples/reddit_supervised.sh 。

代码规范

预提交

详情请查看官方网站

.pre-commit-config.yaml ：为 python 创建包含以下内容的文件

 repos :
-   repo : https://github.com/pre-commit/pre-commit-hooks
    rev : v4.4.0
    hooks :
    -   id : check-yaml
    -   id : end-of-file-fixer
    -   id : trailing-whitespace
-   repo : https://github.com/psf/black
    rev : 23.7.0
    hooks :
    -   id : black

pre-commit install ：将 pre-commit 安装到你的 git hooks 中。
- 预提交现在将在每次提交时运行。
- 每次使用预提交克隆项目时，运行pre-commit install应该始终是您要做的第一件事。
pre-commit run --all-files ：在存储库上运行所有预提交挂钩
pre-commit autoupdate ：自动将您的挂钩更新到最新版本
git commit -n ：可以使用以下命令禁用特定提交的预提交检查

引文

如果您发现这项工作有用，请引用以下论文：

@article{zhao2024graphgpt,
  title={GraphGPT: Graph Learning with Generative Pre-trained Transformers},
  author={Zhao, Qifang and Ren, Weidong and Li, Tianyu and Xu, Xiaoxiao and Liu, Hong},
  journal={arXiv preprint arXiv:2401.00529},
  year={2024}
}

接触

赵其芳 ([email protected])

衷心感谢您对我们工作提出的建议！

执照

根据 MIT 许可证发布（参见LICENSE ）：

 Ali-GraphGPT-project is an AI project on training large scale transformer decoder with graph datasets,
developed by Alibaba and licensed under the MIT License.

展开

附加信息