ontogpt Logo" style="max-width: 100%;">
ontogpt — это пакет Python для извлечения структурированной информации из текста с помощью больших языковых моделей (LLM), подсказок инструкций и обоснования на основе онтологий.
Более подробную информацию можно найти в полной документации.
ontogpt запускается из командной строки, хотя имеется также минимальный интерфейс веб-приложения (см. раздел Web Application
ниже).
Убедитесь, что у вас установлен Python 3.9 или более поздней версии.
Установить с помощью pip
:
pip install ontogpt
Установите ключ API OpenAI:
runoak set-apikey -e openai < your openai api key >
Посмотрите список всех команд ontogpt :
ontogpt --help
Попробуйте простой пример извлечения информации:
echo " One treatment for high blood pressure is carvedilol. " > example.txt
ontogpt extract -i example.txt -t drug
ontogpt получит необходимые онтологии и выведет результаты в командную строку. В результате вы получите все извлеченные объекты под заголовком extracted_object
.
Существует простое веб-приложение для запуска ontogpt и просмотра результатов.
Сначала установите необходимые зависимости с помощью pip
, выполнив следующую команду:
pip install ontogpt [web]
Затем запустите эту команду, чтобы запустить веб-приложение:
web- ontogpt
ПРИМЕЧАНИЕ. Мы не рекомендуем публично размещать это веб-приложение без аутентификации.
ontogpt использует пакет litellm
(https://litellm.vercel.app/) для взаимодействия с LLM.
Это означает, что поддерживается большинство API, включая OpenAI, Azure, Anthropic, Mistral, Replication и другие.
Имя используемой модели можно найти с помощью команды ontogpt list-models
— используйте имя в первом столбце с опцией --model
.
В большинстве случаев для этого потребуется установить ключ API для конкретной службы, как указано выше:
runoak set-apikey -e anthropic-key < your anthropic api key >
Некоторые конечные точки, такие как модели OpenAI через Azure, требуют настройки дополнительных сведений. Они могут быть установлены аналогичным образом:
runoak set-apikey -e azure-key < your azure api key >
runoak set-apikey -e azure-base < your azure endpoint url >
runoak set-apikey -e azure-version < your azure api version, e.g. " 2023-05-15 " >
Эти данные также могут быть установлены как переменные среды следующим образом:
export AZURE_API_KEY= " my-azure-api-key "
export AZURE_API_BASE= " https://example-endpoint.openai.azure.com "
export AZURE_API_VERSION= " 2023-05-15 "
Открытые LLM можно получить и запустить через пакет ollama
(https://ollama.com/).
Вам нужно будет установить ollama
(см. репозиторий GitHub), и вам, возможно, придется запустить ее как службу с помощью такой команды, как ollama serve
или sudo systemctl start ollama
.
Затем извлеките модель с помощью ollama pull <modelname>
, например, ollama pull llama3
.
Затем модель можно использовать в ontogpt добавив к ее имени префикс ollama/
, например, ollama/llama3
, вместе с опцией --model
.
Некоторые модели ollama могут не быть указаны в ontogpt list-models
но полный список загруженных LLM можно просмотреть с помощью команды ollama list
.
Функции ontogpt были оценены на тестовых данных. Пожалуйста, ознакомьтесь с полной документацией для получения подробной информации об этих оценках и о том, как их воспроизвести.
Подход к извлечению информации, используемый в ontogpt , SPIRES, описан далее в: Caufield JH, Hegde H, Emonet V, Harris NL, Joachimiak MP, Matentzoglu N, et al. Структурированный быстрый опрос и рекурсивное извлечение семантики (SPIRES): метод заполнения баз знаний с использованием нулевого обучения. Биоинформатика , Том 40, Выпуск 3, март 2024 г., btae104, https://doi.org/10.1093/bioinformatics/btae104.
Этот проект является частью Monarch Initiative. Мы также благодарим Bosch Research за поддержку этого исследовательского проекта.