Repositori resmi kertas "Ekstraksi informasi zero-shot melalui chatting dengan chatgpt". Silakan membintangi, menonton, dan membayar repo kami untuk pembaruan aktif!
Ekstraksi Informasi Zero-Shot (IE) bertujuan untuk membangun sistem IE dari teks yang tidak dirampai. Ini menantang karena melibatkan sedikit intervensi manusia. Menantang tetapi bermanfaat, zero-shot yaitu mengurangi waktu dan upaya yang dibutuhkan pelabelan data. Upaya terbaru pada model bahasa besar (LLM, misalnya, GPT3, ChatGPT) menunjukkan kinerja yang menjanjikan pada pengaturan zero-shot, sehingga menginspirasi kami untuk mengeksplorasi metode berbasis prompt. Dalam pekerjaan ini, kami bertanya apakah model IE yang kuat dapat dibangun dengan langsung mendorong LLMS. Secara khusus, kami mengubah tugas zero-shot IE menjadi masalah pertanyaan multi-putar dengan kerangka kerja dua tahap (Chatie). Dengan kekuatan chatgpt, kami secara luas mengevaluasi kerangka kerja kami pada tiga tugas IE: ekstrak rangkap rangkap entitas, pengenalan entitas yang dinamai, dan ekstraksi acara. Hasil empiris pada enam dataset di dua bahasa menunjukkan bahwa Chatie mencapai kinerja yang mengesankan dan bahkan melampaui beberapa model full-shot pada beberapa dataset (misalnya, NYT11-HRL). Kami percaya bahwa pekerjaan kami dapat menjelaskan model IE dengan sumber daya yang terbatas.
零样本信息抽取( Ekstraksi informasi, yaitu )旨在从无标注文本中建立 Ie 系统 , 因为很少涉及人为干预 , 该问题非常具有挑战性。但零样本 IE 不再需要标注数据时耗费的时间和人力, 因此十分重要。近来的大规模语言模型(例如 gpt-3 , obrolan gpt )在零样本设置下取得了很好的表现 , 这启发我们探索基于提示的方法来解决零样本 yaitu 任务。我们提出一个问题 : 不经过训练来实现零样本信息抽取是否可行?我们将零样本 IE 任务转变为一个两阶段框架的多轮问答问题( Obrolan IE), 并在三个 IE 任务中广泛评估了该框架 : 实体关系三元组抽取、命名实体识别和事件抽取。在两个语言的 6 个数据集上的实验结果表明 , obrolan yaitu 取得了非常好的效果 , 甚至在几个数据集上(例如 nyt11-hrl)上超过了全监督模型的表现。我们的工作能够为有限资源下 IE 系统的建立奠定基础。
UPDATE: Kami menggunakan API resmi, alat ini menjadi lebih cepat !!! Jika kunci melebihi batas, tolong beri tahu kami.
Perhatikan : Kecepatan respons tergantung pada API Openai Chatgpt resmi. ; kelebihan beban.
Perhatikan: Karena API resmi tidak tersedia di domestik, jadi kami menggunakan API dari versi RevChatGPT dan V1. Tapi itu terlalu lambat , jadi kami menyarankan Anda menggunakan alat offline untuk belajar. Kami akan memperbarui API lebih lanjut di masa depan ( TODO ).
Kami juga menyediakan alat IE berdasarkan GPT3.5, Anda dapat melihat di GPT4IE
Chatie (ekstraksi informasi zero-shot melalui Chatting dengan ChatGPT) adalah demo alat IE open-source dan kuat. Ditingkatkan dengan chatgpt dan dorongan, ini bertujuan untuk secara otomatis mengekstrak informasi terstruktur dari kalimat mentah dan membuat analisis mendalam yang berharga dari kalimat input. Memanfaatkan informasi terstruktur yang berharga membantu perusahaan membuat keputusan yang tajam dan meningkatkan bisnis.
Kami mendukung fungsi -fungsi berikut:
Tugas | Nama | Tawa |
---|---|---|
ULANG | Ekstraksi sendi relasi entitas | Cina, Inggris |
Ner | dinamai Entity Recoginzation | Cina, Inggris |
Ee | Ekstraksi acara | Cina, Inggris |
Tugas ini bertujuan untuk mengekstraksi tiga kali lipat dari teks biasa, seperti (Cina, modal, Beijing) , (《如懿传》, 主演, 周迅) .
PS: * Denote Opsional, kami menetapkan nilai default untuk mereka. Tetapi untuk ekstraksi yang lebih baik, Anda harus menentukan tiga daftar sesuai dengan skenario aplikasi.
Kalimat: Empat eksekutif Google lainnya Kepala Financial Officer, George Reyes; Wakil Presiden Senior untuk Operasi Bisnis, Shona Brown; Kepala Pejabat Hukum, David Drummond; Dan wakil presiden senior untuk manajemen produk, Jonathan Rosenberg masing -masing mendapatkan gaji $ 250.000.
RTL: Default, lihat File "Jenis Default"
Oteptut:
Kalimat:第五部 : 《如懿传》《如懿传》是一部古装宫廷情感电视剧 , 由汪俊执导 , ,
RTL: Default, lihat File "Jenis Default"
Oteptut:
Tugas ini bertujuan untuk mengekstraksi entitas dari teks biasa, seperti (loc, beijing) , (人物, 周恩来) .
Kalimat: James bekerja untuk Google di Beijing, ibukota Cina. ETL: ['loc', 'misc', 'org', 'per']
Oteptut:
Kalimat:中国 产党创立于中华民国大陆时期 , ,
ETL: ['组织机构', '地点', '人物']
Oteptut:
Tugas ini bertujuan untuk mengekstrak acara dari teks biasa, seperti {Life-Divorce: {Person: Bob, Time: Today, Place: America}}, {竞赛行为-晋级: {时间: 无,晋级方: 西北狼, 晋级赛事: 中甲榜首之争}} .
Hukuman: Kemarin Bob dan istrinya bercerai di Guangzhou.
ETL: Default, lihat File "Jenis Default"
Oteptut:
Kalimat:在 2022 年卡塔尔世界杯决赛中 , 阿根廷以点球大战险胜法国。
ETL: Default, lihat File "Jenis Default"
Oteptut:
Bereaksi+Flask
front-end
dan jalankan npm install
untuk mengunduh dependensi yang diperlukan.npm run start
. Chatie harus dibuka di tab browser baru.back-end
dan jalankan python run.py
Kami berkomitmen untuk meningkatkan proyek kami dan memberi Anda pengalaman terbaik. Untuk mencapai hal ini, kami akan mengumpulkan data Anda untuk membantu kami memahami bagaimana Anda berinteraksi dengan proyek kami dan mengidentifikasi area untuk perbaikan. Kami menghargai privasi dan keamanan data Anda dan memastikan data hanya untuk tujuan meningkatkan proyek kami.
CHECKOUT Makalah ini Arxiv: 2302.10205
@article{wei2023zero,
title={Zero-Shot Information Extraction via Chatting with ChatGPT},
author={Wei, Xiang and Cui, Xingyu and Cheng, Ning and Wang, Xiaobin and Zhang, Xin and Huang, Shen and Xie, Pengjun and Xu, Jinan and Chen, Yufeng and Zhang, Meishan and others},
journal={arXiv preprint arXiv:2302.10205},
year={2023}
}