紙の公式リポジトリ「chatgptとのチャットによるゼロショット情報抽出」。アクティブな更新のために、私たちのレポを主演、見て、フォークしてください!
ゼロショット情報抽出(つまり)は、発表されていないテキストからIEシステムを構築することを目的としています。人間の介入がほとんどないため、それは困難です。挑戦的であるが価値のあるゼロショットIEは、データのラベル付けにかかる時間と労力を短縮します。大規模な言語モデル(LLMS、例えば、GPT3、ChatGPT)に関する最近の取り組みは、ゼロショット設定で有望なパフォーマンスを示しているため、迅速なベースの方法を探求するようになりました。この作業では、LLMSを直接促すことにより、強力なIEモデルを構築できるかどうかを尋ねます。具体的には、ゼロショットIEタスクを、2段階のフレームワーク(Chatie)で複数回ターンの質問回答問題に変換します。 ChATGPTの力により、3つのIEタスクに関するフレームワークを広範囲に評価します:エンティティリレーショントリプルエキス、名前付きエンティティ認識、イベント抽出。 2つの言語にわたる6つのデータセットの経験的結果は、Chatieが印象的なパフォーマンスを達成し、いくつかのデータセットでいくつかのフルショットモデル(NYT11-HRLなど)を上回っていることを示しています。私たちの仕事は、リソースが限られているモデルの構築に光を当てることができると考えています。
零样本信息抽取(情報抽出、すなわち、つまり、因为很少涉及人为干预、该问题非常具有挑战性。但零样本、つまり不再需要标注数据时耗费的时间和人力、因此十分重要。近来的大规模语言模型(例如 gpt-3、チャットgpt)在零样本设置下取得了很好的表现、这启发我们探索基于提示的方法来解决零样本ie任务。我们提出一个问题:不经过训练来实现零样本信息抽取是否可行?我们将零样本 IE 任务转变为一个两阶段框架的多轮问答问题(チャットIE)、并在三个IE任务中广泛评估了该框架:实体关系三元组抽取、命名实体识别和事件抽取。在两个语言的 6个数据集上的实验结果表明、チャットIE取得了非常好的效果、甚至在几个数据集上(例如NYT11-HRL上超过了全监督模型的表现。我们的工作能够为有限资源下ie系统的建立奠定基础。
更新:公式APIを使用します。ツールはより速くなります!!!キーが制限を超えている場合は、教えてください。
通知:応答速度は、公式のOpenai ChatGPT APIに依存します。 (時々、公式が混雑しすぎて速度が遅くなるか、ChatGPTが過負荷になります。)さらに、デフォルトのアカウントが複数の人が同時に使用する場合、アカウントは過負荷。
通知:公式APIは国内では利用できないため、RevChatgptおよびV1バージョンのAPIを使用します。しかし、それは遅すぎるので、私たちはあなたが研究にオフラインでツールを使用することをお勧めします。将来APIをさらに更新します( TODO )。
GPT3.5に基づいたIEツールも提供します。GPT4IEで確認できます
Chatie(ChatGPTとのチャットによるゼロショット情報抽出)は、オープンソースで強力なIEツールデモです。 ChatGptとプロンプトによって強化されたこの目的で、生の文から構造化された情報を自動的に抽出し、入力文の貴重な詳細な分析を行うことを目指しています。貴重な構造化された情報を活用すると、企業が鋭くビジネスを改善する決定を下すのに役立ちます。
次の機能をサポートしています。
タスク | 名前 | ラウゲージ |
---|---|---|
再 | エンティティ関連のジョイント抽出 | 中国語、英語 |
ええと | 名前付きのエンティティレコギンズ | 中国語、英語 |
EE | イベント抽出 | 中国語、英語 |
このタスクは、(中国、首都、北京) 、 (《如懿传》、主演、周迅)などの平易なテキストからトリプルを抽出することを目的としています。
PS: *オプションを示し、それらのデフォルト値を設定します。ただし、抽出を改善するには、アプリケーションシナリオに従って3つのリストを指定する必要があります。
文:他の4人のGoogleエグゼクティブ最高財務責任者、George Reyes。 Shona Brownの上級副社長。最高法務官のデビッド・ドラモンド。また、製品管理の上級副社長であるジョナサンローゼンバーグは、それぞれ250,000ドルの給与を獲得しました。
RTL:デフォルト、ファイル「default-types」を参照してください
ouptut:
文:第五部:《如懿传》《如懿传》是一部古装宫廷情感电视剧、由汪俊执导、周迅、霍建华、张钧甯、董洁、辛芷蕾、童瑶、李纯、邬君梅等主演。
RTL:デフォルト、ファイル「default-types」を参照してください
ouptut:
このタスクは、 (loc、北京) 、 (人物、周恩来)などの平易なテキストからエンティティを抽出することを目的としています。
文:ジェームズは、中国の首都である北京のGoogleで働いていました。 ETL: ['loc'、 'misc'、 'org'、 'per']]
ouptut:
文:中国共产党创立于中华民国大陆时期、由陈独秀和李大钊领导组织。
ETL: ['组织机构'、 '地点'、 '人物']
ouptut:
このタスクの目的は、{life-divorce:{person:bob、time:today、place:America}}、{竞赛行为-晋级:{时间:无、晋级方:西北狼、晋级など、プレーンテキストからイベントを抽出することを目的としています。赛事:中甲榜首之争}} 。
文:昨日、ボブと彼の妻は広州で離婚しました。
ETL:デフォルト、ファイル「デフォルトタイプ」を参照してください
ouptut:
文:在2022年卡塔尔世界杯决赛中、阿根廷以点球大战险胜法国。
ETL:デフォルト、ファイル「デフォルトタイプ」を参照してください
ouptut:
反応+フラスコ
front-end
と実行npm install
を実行して、必要な依存関係をダウンロードします。npm run start
実行します。 Chatieは新しいブラウザタブで開く必要があります。back-end
とRun python run.py
私たちはプロジェクトを改善し、可能な限り最高の体験を提供することに取り組んでいます。これを達成するために、お客様のデータを収集して、プロジェクトとどのように対話するかを理解し、改善の領域を特定します。私たちはあなたのデータのプライバシーとセキュリティを大切にし、プロジェクトを改善する目的でのみデータを確保します。
このペーパーのチェックアウトarxiv:2302.10205
@article{wei2023zero,
title={Zero-Shot Information Extraction via Chatting with ChatGPT},
author={Wei, Xiang and Cui, Xingyu and Cheng, Ning and Wang, Xiaobin and Zhang, Xin and Huang, Shen and Xie, Pengjun and Xu, Jinan and Chen, Yufeng and Zhang, Meishan and others},
journal={arXiv preprint arXiv:2302.10205},
year={2023}
}