针对 COVID-19 论文的问答系统
简介 • 入门 • 底层介绍 • 服务器和客户端 API
信息。与 COVID-19 相关的文档数量呈指数级增长。面对如此大量的信息,研究界越来越难以找到相关的信息。
类固醇搜索引擎。 Korono 是一个问答平台,旨在促进有关 COVID-19 的信息研究。您可以将 Korono 视为增强型搜索引擎。
工作原理。 Korono引擎由两个阶段组成:搜索引擎阶段和问答阶段。首先,给定一个查询q
,搜索引擎会返回该查询的所有相关论文。随后,从每篇论文中提取答案并显示。
您可以使用在线版本(即将推出)或运行您自己的服务器。
本地运行服务器:
./run_server.sh
运行客户端并提出问题:
> from korono import client
> client . get_answers ( "What is coronavirus?" )
搜索引擎。该搜索引擎使用名为 Okapi BM25 的排名算法,其中 BM 代表最佳匹配。 BM25 是一种词袋检索功能,可根据每个文档中出现的查询词对文档进行排序。
问答。这些问题是使用大型神经网络语言模型 Transformer 从语料库中提取的。截至目前,仅支持distilbert-base-uncased-distilled-squad
模型。很快,我们计划提供支持。
load_data.get_df()
返回下划线数据集。
load_data.get_metadata_df()
返回 CORD-19 元数据 pandas DataFrame。
korono_model.answer_question(question, context)
给定问题和上下文,返回答案。
korono.model.get_summary(text)
给定文本,模型返回抽象摘要。
korono_model.find_start_end_index_substring(context, answer)
返回context
字符串中answer
字符串的开始和结束索引(如果存在)。
client.get_answers_json(question)
返回以下形式的 JSON 对象: {
"results" : [
{
"context" : " coronavirus is an infectious disease " ,
"question" : " what is coronavirus? " ,
"answer" : " an infectious disease " ,
},
]
}
client.get_answers(question)
返回所有答案的列表。