Теперь у нас есть тестовый интерфейс, который можно использовать, выполнив поиск в общедоступной учетной записи WeChat OpenDialog
OpenDialog построен на преобразователях на базе PyTorch. Предоставляет серию моделей диалога в открытом домене китайского языка (чат-разговоры) на основе трансформаторов, собирает существующие ресурсы данных и постоянно дополняет соответствующие наборы данных китайской системы разговоров с целью создания диалоговой платформы китайского чата с открытым исходным кодом.
Последние разработки:
2020.8.20 завершил интерфейс генеративной модели предварительного обучения открытого домена LCCC-GPT-Large и запустил следующий код, чтобы запустить соответствующую службу.
./run_flask lccc < gpu_id >
26.10.2020 завершена партия моделей диалоговых окон поиска би-энкодера (берт-би-энкодер, полиэнкодер и т. д.)
...
Основные файлы и каталоги OpenDialog:
data
: набор данных, файл конфигурации, список слов, вектор слов, сценарий обработки набора данных.models
: диалоговые моделиmetrics
: показатели оценкиmultiview
: модель многоракурсного переранжирования, переранжирование для получения ответов кандидатов в диалогеckpt
: хранит модель обученияrest
: хранит журналы тензорной доски и файлы результатов, созданные на этапе тестирования.utils
: хранит функции инструмента.dataloader.py
: скрипт загрузки набора данных.main.py
: основной рабочий файлheader.py
: пакет, который необходимо импортировать.eval.py
: вызов сценария оценки показателей оценки в metrics
, чтобы проверить результаты файла, сгенерированного в rest
run.sh
: запустить пакетный скриптrun_flask.sh
: вызов модели и запуск службы. Базовая системная среда: Linux/Ubuntu-16.04+
, Python 3.6+
, GPU (default 1080 Ti)
Установите библиотеки, зависящие от Python
pip install -r requirements.txt
Установите ElasticSearch
Диалоговая система на основе поиска должна сначала использовать elasticsearch
для грубого отбора. В то же время, чтобы добиться сегментации китайских слов на этапе грубого отбора, необходимо загрузить и установить сегментатор китайских слов.
Установить mongodb
После запуска службы mongodb
будет использоваться для хранения истории сеансов и необходимых данных.
data
и сохраните файлы векторов слов chinese_w2v.txt
и english_w2v.bin
в data
.data/README.md
.<gpu_ids>
, например 0,1,2,3
dataset
соответствует имени в каталоге data
.Модель | КМД | Тип | Подробности | Ссылаться | Модель перед поездкой |
---|---|---|---|---|---|
берпоиск | ./run.sh train <набор данных> bertretrival <gpu_ids> | поиск | Модель тонкой настройки на основе Берта (тонкая настройка) | Бумага | |
gpt2 | ./run.sh train <набор данных> gpt2 <gpu_ids> | порождающий | Модель генеративного диалога GPT2 | Код | |
gpt2gan | ./run.sh train <набор данных> gpt2gan <gpu_ids> | порождающий | Диалоговая модель на основе GAN, генеративная модель — GPT2, а дискриминантная модель — модель двух классификаций BERT. | Бумага |
Запустить службу колб
./run_flask.sh <model_name> <gpu_id>
Интерфейс вызова