TEXTOIR
1.0.0
TEXTOIR 是第一个高质量文本开放意图识别平台。该存储库包含一个具有可扩展接口的方便工具包,集成了两个任务(开放意图检测和开放意图发现)的一系列最先进的算法。我们还在仓库 TEXTOIR-DEMO 中发布了管道框架和可视化平台。
TEXTOIR 旨在为研究人员提供一个方便的工具包来重现相关的文本开放分类和聚类方法。它包含两个任务,定义为开放意图检测和开放意图发现。开放意图检测旨在识别n类已知意图,并检测一类开放意图。开放意图发现旨在利用已知意图的有限先验知识来找到细粒度的已知且开放的意图集群。相关论文和代码都收集在我们之前发布的阅读列表中。
开放意图识别:
日期 | 公告 |
---|---|
12/2023 | ? ?开放意图发现中的新论文和 SOTA。请参阅目录 USNID 获取代码。阅读论文——用于无监督和半监督新意图发现的聚类框架(发表于 IEEE TKDE 2023)。 |
04/2023 | ? ?开放意图检测中的新论文和 SOTA。请参阅目录 DA-ADB 获取代码。阅读论文——学习用于开放意图检测的判别表示和决策边界(发表于 IEEE/ACM TASLP 2023)。 |
09/2021 | ? ?首个集成可视化文本开放意图识别平台TEXTOIR已发布。演示代码请参考 TEXTOIR-DEMO 目录。阅读我们的论文 TEXTOIR:文本开放意图识别的集成可视化平台(发布于 ACL 2021)。 |
05/2021 | 开放意图发现中的新论文和基线 DeepAligned 已发布。阅读我们的论文《通过深度对齐聚类发现新意图》(发表于 AAAI 2021)。 |
05/2021 | 新论文和 ADB 开放意图检测基线已发布。阅读我们的论文《具有自适应决策边界的深度开放意图分类》(发表于 AAAI 2021)。 |
05/2020 | 开放意图发现中的新论文和基线 CDAC+ 已发布。阅读我们的论文《通过具有集群细化的约束深度自适应集群发现新意图》(发表于 AAAI 2020)。 |
07/2019 | 开放意图检测中的新论文和基线 DeepUNK 已发布。阅读我们的论文《深度未知意图检测与边缘损失》(发表于 ACL 2019)。 |
我们强烈建议您使用我们的 TEXTOIR 工具包,该工具包具有标准且统一的接口(尤其是数据设置),以便在基准意图数据集上获得公平且可信的结果!
数据集 | 来源 |
---|---|
银行业 | 纸 |
OOS/CLINC150 | 纸 |
堆栈溢出 | 纸 |
型号名称 | 来源 | 已发表 |
---|---|---|
开放最大* | 纸质代码 | 2016年CVPR |
MSP | 纸质代码 | ICLR 2017 |
文档 | 纸质代码 | 2017年欧洲管理国家实验室 |
深渊 | 纸质代码 | 2019年亚冠 |
赛格 | 纸质代码 | 2020年亚冠 |
亚洲开发银行 | 纸质代码 | 2021 年亚洲人工智能大会 |
(K+1)路 | 纸质代码 | 2021年亚冠 |
中密度纤维板 | 纸质代码 | 2021年亚冠 |
ARPL* | 纸质代码 | IEEE TPAMI 2022 |
韩国国家癌症中心 | 纸质代码 | 2022年亚冠 |
DA-亚行 | 纸质代码 | IEEE/ACM TASLP 2023 |
环境 | 型号名称 | 来源 | 已发表 |
---|---|---|---|
无监督 | 知识管理 | 纸 | BSMSP 1967 |
无监督 | 股份公司 | 纸 | 1978年公关 |
无监督 | SAE-KM | 纸 | 2010年MLR |
无监督 | 十二月 | 纸质代码 | 2016年ICML |
无监督 | 数字化网络 | 纸质代码 | 2017年ICML |
无监督 | 抄送 | 纸质代码 | 2021 年亚洲人工智能大会 |
无监督 | SCCL | 纸质代码 | 全国有色人种协会 2021 |
无监督 | 美国国家情报研究所 | 纸质代码 | IEEE TKDE 2023 |
半监督 | 伦敦国王学院* | 纸质代码 | ICLR 2018 |
半监督 | 内侧CL* | 纸质代码 | ICLR 2019 |
半监督 | 故障码* | 纸质代码 | 2019年国际汽车工业展览会 |
半监督 | 华助会+ | 纸质代码 | 2020年亚洲人工智能大会 |
半监督 | 深度对齐 | 纸质代码 | 2021 年亚洲人工智能大会 |
半监督 | GCD | 纸质代码 | CVPR 2022 |
半监督 | MTP-CLNN | 纸质代码 | 2022年亚冠 |
半监督 | 美国国家情报研究所 | 纸质代码 | IEEE TKDE 2023 |
(* 表示 CV 模型替换为 BERT 主干)
conda create --name textoir python=3.6
conda activate textoir
conda install pytorch torchvision torchaudio cudatoolkit=11.0 -c pytorch -c conda-forge
git clone [email protected]:thuiar/TEXTOIR.git
cd TEXTOIR
cd open_intent_detection
pip install -r requirements.txt
sh examples/run_ADB.sh
该工具包是可扩展的,支持方便地添加新方法、数据集、配置、主干、数据加载器、损失。更详细的信息可以在目录 open_intent_detection 和 open_intent_discovery 的教程中看到。
如果这项工作有帮助,或者您想使用此存储库中的代码和结果,请引用以下论文:
@inproceedings{zhang-etal-2021-textoir,
title = "{TEXTOIR}: An Integrated and Visualized Platform for Text Open Intent Recognition",
author = "Zhang, Hanlei and Li, Xiaoteng and Xu, Hua and Zhang, Panpan and Zhao, Kang and Gao, Kai",
booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations",
pages = "167--174",
year = "2021",
url = "https://aclanthology.org/2021.acl-demo.20",
doi = "10.18653/v1/2021.acl-demo.20",
}
@article{DA-ADB,
title = {Learning Discriminative Representations and Decision Boundaries for Open Intent Detection},
author = {Zhang, Hanlei and Xu, Hua and Zhao, Shaojie and Zhou, Qianrui},
journal = {IEEE/ACM Transactions on Audio, Speech, and Language Processing},
volume = {31},
pages = {1611-1623},
year = {2023},
doi = {10.1109/TASLP.2023.3265203}
}
@ARTICLE{USNID,
author={Zhang, Hanlei and Xu, Hua and Wang, Xin and Long, Fei and Gao, Kai},
journal={IEEE Transactions on Knowledge and Data Engineering},
title={A Clustering Framework for Unsupervised and Semi-supervised New Intent Discovery},
year={2023},
doi={10.1109/TKDE.2023.3340732}
}
张涵蕾,赵少杰,王鑫,林廷恩,周干瑞,毛惠生。
如果您有任何疑问,请打开问题并尽可能详细地说明您的问题。如果您想将您的方法集成到我们的存储库中,请随时提出请求!