Официальный репозиторий бумаги "Извлечение информации с нулевым выстрелом через чат с CHATGPT". Пожалуйста, снимайтесь, смотрите и разжигайте наш репо для активных обновлений!
Извлечение информации с нулевым выстрелом (т.е.) направлена на создание систем IE из нездорового текста. Это сложно из -за небольшого вмешательства человека. Сложный, но стоящий, нулевой выстрел, IE уменьшает время и усилия, которые требует маркировки данных. Недавние усилия по крупным языковым моделям (LLMS, EG, GPT3, CHATGPT) показывают многообещающую производительность в настройках с нулевым выстрелом, что вдохновляет нас на изучение быстрых методов. В этой работе мы спрашиваем, могут ли сильные модели IE быть построены путем непосредственного побуждения LLMS. В частности, мы превращаем задачу с нулевым выстрелом в проблему с несколькими вопросами с двухэтапной структурой (Chatie). С силой CHATGPT мы широко оцениваем нашу структуру по трем задачам IE: тройной экстракт EntityRelation, признание объекта и извлечение событий. Эмпирические результаты по шести наборам данных на двух языках показывают, что Chatie достигает впечатляющей производительности и даже превосходит некоторые модели с полным выстрелом в нескольких наборах данных (например, NYT11-HRL). Мы считаем, что наша работа может пролить свет на создание моделей IE с ограниченными ресурсами.
零样本信息抽取 (извлечение информации , т.е.) 旨在从无标注文本中建立 IE 系统 , 因为很少涉及人为干预 , 该问题非常具有挑战性。但零样本 IE 不再需要标注数据时耗费的时间和人力, 因此十分重要。近来的大规模语言模型 (例如 gpt-3 , чат gpt) 在零样本设置下取得了很好的表现 , 这启发我们探索基于提示的方法来解决零样本 IE 任务。我们提出一个: : 不经过训练来实现零样本信息抽取是否可行?我们将零样本 т.е. ((((((任务转变为一个两阶段框架的多轮问答问题 并在三个 并在三个 并在三个 任务中广泛评估了该框架 : 实体关系三元组抽取、命名实体识别和事件抽取。在两个语言的 6 个数据集上的实验结果表明 , чат То есть 取得了非常好的效果 , ((例如 nyt11-hrl) 上超过了全监督模型的表现。我们的工作能够为有限资源下 IE 系统的建立奠定基础。 系统的建立奠定基础。 系统的建立奠定基础。
Обновление : Мы используем официальный API, инструмент становится более быстрее !!! Если ключ превышает ограничения, сообщите нам.
Уведомление : Скорость ответа зависит от официального API Openai Catgpt. (Иногда чиновник слишком переполнен, и скорость будет медленной, или CHATGPT будет перегружен.) Более того, вы лучше используете свой собственный ключ Openai, потому что, если наша учетная запись по умолчанию используется несколькими людьми одновременно, учетная запись может быть перегружен.
Примечание: Поскольку официальный API не доступен в домашнем хозяйстве, поэтому мы используем API из версии RevChatgpt и V1. Но это слишком медленно , поэтому мы советуем вам использовать инструмент в автономном режиме для обучения. Мы будем обновлять API дальше в будущем ( TODO ).
Мы также предоставляем инструмент IE на основе GPT3.5, вы можете увидеть в GPT4IE
Chatie (извлечение информации с нулевым выстрелом через чат с CHATGPT)-это открытый и мощная демонстрация инструмента IE. Улучшенный CHATGPT и подсказка, он направлен на автоматическое извлечение структурированной информации из необработанного предложения и провести ценный углубленный анализ входного предложения. Использование ценной структурированной информации помогает корпорациям принимать резкие и бизнес -решения.
Мы поддерживаем следующие функции:
Задача | Имя | Lauguages |
---|---|---|
Репутация | Совместное извлечение сущности | Китайский, английский |
Нор | Названная сущность рекогинзация | Китайский, английский |
EE | Извлечение событий | Китайский, английский |
Эта задача направлена на то, чтобы извлечь тройки из простых текстов, таких как (Китай, капитал, Пекин) , (《如懿传》, 主演, 周迅) .
PS: * Обозначим необязательно, мы устанавливаем значение по умолчанию для них. Но для лучшего извлечения вы должны указать три списка в соответствии с сценариями приложений.
Приговор: четверо других руководителей Google, финансовый директор Джордж Рейес; старший вице -президент по бизнес -операциям Шона Браун; главный юридический директор Дэвид Драммонд; А старший вице -президент по управлению продуктами, Джонатан Розенберг заработал зарплату в размере 250 000 долларов каждая.
RTL: по умолчанию, см. Файл "Типы по умолчанию"
OUPTUT:
Предложение: : : 《如懿传》《如懿传》是一部古装宫廷情感电视剧 由汪俊执导 由汪俊执导 周迅、霍建华、张钧甯、董洁、辛芷蕾、童瑶、李纯、邬君梅等主演。 周迅、霍建华、张钧甯、董洁、辛芷蕾、童瑶、李纯、邬君梅等主演。
RTL: по умолчанию, см. Файл "Типы по умолчанию"
OUPTUT:
Эта задача направлена на то, чтобы извлечь сущности из простых текстов, таких как (loc, Пекин) , (人物, 周恩来) .
Приговор: Джеймс работал в Google в Пекине, столице Китая. etl: ['loc', 'misc', 'org', 'per']
OUPTUT:
Предложение:中国 产党创立于中华民国大陆时期 , 由陈独秀和李大钊领导组织。
ETL: ['组织机构', '地点', '人物']
OUPTUT:
Эта задача направлена на извлечение события из простых текстов, таких как {Life-Divorce: {Person: Bob, время: сегодня, место: America}} , {竞赛行为-晋级: {时间: 无, 晋级方: 西北狼, 晋级 晋级赛事: 中甲榜首之争}} .
Приговор: Вчера Боб и его жена развелись в Гуанчжоу.
ETL: по умолчанию, см. Файл "Типы по умолчанию"
OUPTUT:
Предложение:在 2022 年卡塔尔世界杯决赛中 , 阿根廷以点球大战险胜法国。 阿根廷以点球大战险胜法国。
ETL: по умолчанию, см. Файл "Типы по умолчанию"
OUPTUT:
React+колба
front-end
CD и запустите npm install
для загрузки необходимых зависимостей.npm run start
. Chatie должен открыться на новой вкладке браузера.back-end
и запустите python run.py
Мы стремимся улучшить наш проект и предоставить вам наилучший опыт. Чтобы достичь этого, мы собираем ваши данные, чтобы помочь нам понять, как вы взаимодействуете с нашим проектом, и определить области для улучшения. Мы ценим конфиденциальность и безопасность ваших данных и обеспечиваем данные только для улучшения нашего проекта.
Оформить эту статью Arxiv: 2302.10205
@article{wei2023zero,
title={Zero-Shot Information Extraction via Chatting with ChatGPT},
author={Wei, Xiang and Cui, Xingyu and Cheng, Ning and Wang, Xiaobin and Zhang, Xin and Huang, Shen and Xie, Pengjun and Xu, Jinan and Chen, Yufeng and Zhang, Meishan and others},
journal={arXiv preprint arXiv:2302.10205},
year={2023}
}