TEXTOIR est la première plateforme de reconnaissance d'intention ouverte de texte de haute qualité. Ce référentiel contient une boîte à outils pratique avec des interfaces extensibles, intégrant une série d'algorithmes de pointe pour deux tâches (détection d'intention ouverte et découverte d'intention ouverte). Nous publions également le framework de pipeline et la plateforme visualisée dans le repo TEXTOIR-DEMO.
TEXTOIR vise à fournir une boîte à outils pratique permettant aux chercheurs de reproduire les méthodes de classification ouverte et de regroupement de textes associés. Il contient deux tâches, définies comme la détection d'intention ouverte et la découverte d'intention ouverte. La détection d'intention ouverte vise à identifier les intentions connues de classe n et à détecter les intentions ouvertes d'une classe. La découverte d'intention ouverte vise à exploiter une connaissance préalable limitée des intentions connues pour trouver des clusters d'intention connus et ouverts à granularité fine. Les articles et codes connexes sont rassemblés dans notre liste de lectures publiée précédemment.
Reconnaissance d'intention ouverte :
Date | Annonces |
---|---|
12/2023 | ? ? Nouvel article et SOTA dans Open Intent Discovery. Référez-vous à l'annuaire USNID pour les codes. Lisez l'article -- Un cadre de clustering pour la découverte de nouvelles intentions non supervisée et semi-supervisée (publié dans IEEE TKDE 2023). |
04/2023 | ? ? Nouvel article et SOTA dans la détection d'intention ouverte. Se référer au répertoire DA-ADB pour les codes. Lisez l'article - Apprentissage des représentations discriminantes et des limites de décision pour la détection d'intention ouverte (publié dans IEEE/ACM TASLP 2023). |
09/2021 | ? ? La première plateforme intégrée et visualisée pour la reconnaissance d'intention ouverte de texte TEXTOIR a été lancée. Référez-vous au répertoire TEXTOIR-DEMO pour les codes démo. Lisez notre article TEXTOIR : Une plate-forme intégrée et visualisée pour la reconnaissance d'intention ouverte de texte (publié dans ACL 2021). |
05/2021 | Un nouveau document et des références DeepAligned in Open Intent Discovery ont été publiés. Lisez notre article Discovering New Intents with Deep Aligned Clustering (publié dans AAAI 2021). |
05/2021 | Un nouveau document et des références ADB dans Open Intent Detection ont été publiés. Lisez notre article Deep Open Intent Classification with Adaptive Decision Boundary (publié dans AAAI 2021). |
05/2020 | Un nouvel article et des références CDAC+ dans Open Intent Discovery ont été publiés. Lisez notre article Discovering New Intents via Constrained Deep Adaptive Clustering with Cluster Refinement (publié dans AAAI 2020). |
07/2019 | Un nouveau document et des références DeepUNK dans Open Intent Detection ont été publiés. Lisez notre article Deep Unknown Intent Detection with Margin Loss (publié dans ACL 2019). |
Nous vous recommandons fortement d'utiliser notre boîte à outils TEXTOIR, qui dispose d'interfaces standards et unifiées (notamment la configuration des données) pour obtenir des résultats justes et persuasifs sur des ensembles de données d'intention de benchmark !
Ensembles de données | Source |
---|---|
BANCAIRE | Papier |
SOO / CLINC150 | Papier |
StackOverflow | Papier |
Nom du modèle | Source | Publié |
---|---|---|
OuvertMax* | Code papier | CVPR 2016 |
MSP | Code papier | ICLR 2017 |
DOCUMENT | Code papier | EMNLP 2017 |
DeepUnk | Code papier | LCA 2019 |
SEG | Code papier | LCA 2020 |
BAD | Code papier | AAAI 2021 |
(K+1)-voie | Code papier | LCA 2021 |
MDF | Code papier | LCA 2021 |
ARPL* | Code papier | IEEE TPAMI 2022 |
KNNCL | Code papier | LCA 2022 |
DA-BAD | Code papier | IEEE/ACM TASLP2023 |
Paramètre | Nom du modèle | Source | Publié |
---|---|---|---|
Sans surveillance | KM | Papier | BSMSP 1967 |
Sans surveillance | AG | Papier | RP 1978 |
Sans surveillance | SAE-KM | Papier | JMLR 2010 |
Sans surveillance | DÉC | Code papier | CIML 2016 |
Sans surveillance | DCN | Code papier | CIML 2017 |
Sans surveillance | CC | Code papier | AAAI 2021 |
Sans surveillance | SCCL | Code papier | ANACL 2021 |
Sans surveillance | USNID | Code papier | IEEE TKDE 2023 |
Semi-supervisé | KCL* | Code papier | ICLR 2018 |
Semi-supervisé | MCL* | Code papier | ICLR 2019 |
Semi-supervisé | CPD* | Code papier | ICCV 2019 |
Semi-supervisé | CDAC+ | Code papier | AAAI 2020 |
Semi-supervisé | Aligné en profondeur | Code papier | AAAI 2021 |
Semi-supervisé | PGCD | Code papier | CVPR 2022 |
Semi-supervisé | MTP-CLNN | Code papier | LCA 2022 |
Semi-supervisé | USNID | Code papier | IEEE TKDE 2023 |
(* désigne le modèle CV remplacé par le backbone BERT)
conda create --name textoir python=3.6
conda activate textoir
conda install pytorch torchvision torchaudio cudatoolkit=11.0 -c pytorch -c conda-forge
git clone [email protected]:thuiar/TEXTOIR.git
cd TEXTOIR
cd open_intent_detection
pip install -r requirements.txt
sh examples/run_ADB.sh
Cette boîte à outils est extensible et prend en charge l'ajout pratique de nouvelles méthodes, ensembles de données, configurations, backbones, chargeurs de données et pertes. Des informations plus détaillées peuvent être consultées dans les tutoriels des répertoires open_intent_detection et open_intent_discovery.
Si ce travail est utile ou si vous souhaitez utiliser les codes et les résultats de ce référentiel, veuillez citer les articles suivants :
@inproceedings{zhang-etal-2021-textoir,
title = "{TEXTOIR}: An Integrated and Visualized Platform for Text Open Intent Recognition",
author = "Zhang, Hanlei and Li, Xiaoteng and Xu, Hua and Zhang, Panpan and Zhao, Kang and Gao, Kai",
booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations",
pages = "167--174",
year = "2021",
url = "https://aclanthology.org/2021.acl-demo.20",
doi = "10.18653/v1/2021.acl-demo.20",
}
@article{DA-ADB,
title = {Learning Discriminative Representations and Decision Boundaries for Open Intent Detection},
author = {Zhang, Hanlei and Xu, Hua and Zhao, Shaojie and Zhou, Qianrui},
journal = {IEEE/ACM Transactions on Audio, Speech, and Language Processing},
volume = {31},
pages = {1611-1623},
year = {2023},
doi = {10.1109/TASLP.2023.3265203}
}
@ARTICLE{USNID,
author={Zhang, Hanlei and Xu, Hua and Wang, Xin and Long, Fei and Gao, Kai},
journal={IEEE Transactions on Knowledge and Data Engineering},
title={A Clustering Framework for Unsupervised and Semi-supervised New Intent Discovery},
year={2023},
doi={10.1109/TKDE.2023.3340732}
}
Hanlei Zhang, Shaojie Zhao, Xin Wang, Ting-En Lin, Qianrui Zhou, Huisheng Mao.
Si vous avez des questions, veuillez ouvrir les problèmes et illustrer vos problèmes de manière aussi détaillée que possible. Si vous souhaitez intégrer votre méthode dans notre repo, n'hésitez pas à faire une pull request !