Download pymc - download do código-fonte pymc

pymc

Pitão

v5.19.1

Baixar

Status de construção

PyMC (anteriormente PyMC3) é um pacote Python para modelagem estatística bayesiana com foco em algoritmos avançados de cadeia de Markov Monte Carlo (MCMC) e inferência variacional (VI). Sua flexibilidade e extensibilidade o tornam aplicável a um grande conjunto de problemas.

Confira a visão geral do PyMC ou um dos muitos exemplos! Para perguntas sobre o PyMC, acesse nosso fórum de discurso do PyMC.

Características

Sintaxe de especificação de modelo intuitiva, por exemplo, x ~ N(0,1) se traduz em x = Normal('x',0,1)
Algoritmos de amostragem poderosos , como o No U-Turn Sampler, permitem modelos complexos com milhares de parâmetros com pouco conhecimento especializado de algoritmos de ajuste.
Inferência variacional : ADVI para estimativa posterior aproximada rápida, bem como ADVI de minilote para grandes conjuntos de dados.
Depende do PyTensor, que fornece:
- Otimização de computação e compilação dinâmica em C ou JAX
- Transmissão NumPy e indexação avançada
- Operadores de álgebra linear
- Extensibilidade simples
Suporte transparente para imputação de valores ausentes

Exemplo de regressão linear

O crescimento das plantas pode ser influenciado por múltiplos factores, e a compreensão destas relações é crucial para optimizar as práticas agrícolas.

Imagine que conduzimos um experimento para prever o crescimento de uma planta com base em diferentes variáveis ambientais.

 import pymc as pm

# Taking draws from a normal distribution
seed = 42
x_dist = pm . Normal . dist ( shape = ( 100 , 3 ))
x_data = pm . draw ( x_dist , random_seed = seed )

# Independent Variables:
# Sunlight Hours: Number of hours the plant is exposed to sunlight daily.
# Water Amount: Daily water amount given to the plant (in milliliters).
# Soil Nitrogen Content: Percentage of nitrogen content in the soil.


# Dependent Variable:
# Plant Growth (y): Measured as the increase in plant height (in centimeters) over a certain period.


# Define coordinate values for all dimensions of the data
coords = {
 "trial" : range ( 100 ),
 "features" : [ "sunlight hours" , "water amount" , "soil nitrogen" ],
}

# Define generative model
with pm . Model ( coords = coords ) as generative_model :
   x = pm . Data ( "x" , x_data , dims = [ "trial" , "features" ])

   # Model parameters
   betas = pm . Normal ( "betas" , dims = "features" )
   sigma = pm . HalfNormal ( "sigma" )

   # Linear model
   mu = x @ betas

   # Likelihood
   # Assuming we measure deviation of each plant from baseline
   plant_growth = pm . Normal ( "plant growth" , mu , sigma , dims = "trial" )


# Generating data from model by fixing parameters
fixed_parameters = {
 "betas" : [ 5 , 20 , 2 ],
 "sigma" : 0.5 ,
}
with pm . do ( generative_model , fixed_parameters ) as synthetic_model :
   idata = pm . sample_prior_predictive ( random_seed = seed ) # Sample from prior predictive distribution.
   synthetic_y = idata . prior [ "plant growth" ]. sel ( draw = 0 , chain = 0 )


# Infer parameters conditioned on observed data
with pm . observe ( generative_model , { "plant growth" : synthetic_y }) as inference_model :
   idata = pm . sample ( random_seed = seed )

   summary = pm . stats . summary ( idata , var_names = [ "betas" , "sigma" ])
   print ( summary )

Pelo resumo, podemos perceber que a média dos parâmetros inferidos está muito próxima dos parâmetros fixos

Parâmetros	significar	SD	hdi_3%	hdi_97%	mcse_mean	mcse_sd	ess_bulk	esse_tail	r_hat
betas[horas de luz solar]	4.972	0,054	4.866	5.066	0,001	0,001	3003	1257	1
betas[quantidade de água]	19.963	0,051	19.872	20.062	0,001	0,001	3112	1658	1
betas[nitrogênio do solo]	1.994	0,055	1.899	2.107	0,001	0,001	3221	1559	1
sigma	0,511	0,037	0,438	0,575	0,001	0	2945	1522	1

 # Simulate new data conditioned on inferred parameters
new_x_data = pm . draw (
   pm . Normal . dist ( shape = ( 3 , 3 )),
   random_seed = seed ,
)
new_coords = coords | { "trial" : [ 0 , 1 , 2 ]}

with inference_model :
   pm . set_data ({ "x" : new_x_data }, coords = new_coords )
   pm . sample_posterior_predictive (
      idata ,
      predictions = True ,
      extend_inferencedata = True ,
      random_seed = seed ,
   )

pm . stats . summary ( idata . predictions , kind = "stats" )

Os novos dados condicionados aos parâmetros inferidos seriam assim:

Saída	significar	SD	hdi_3%	hdi_97%
crescimento das plantas[0]	14.229	0,515	13.325	15.272
crescimento das plantas[1]	24.418	0,511	23.428	25.326
crescimento das plantas[2]	-6,747	0,511	-7.740	-5.797

 # Simulate new data, under a scenario where the first beta is zero
with pm . do (
 inference_model ,
 { inference_model [ "betas" ]: inference_model [ "betas" ] * [ 0 , 1 , 1 ]},
) as plant_growth_model :
   new_predictions = pm . sample_posterior_predictive (
      idata ,
      predictions = True ,
      random_seed = seed ,
   )

pm . stats . summary ( new_predictions , kind = "stats" )

Os novos dados, no cenário acima, seriam assim:

Saída	significar	SD	hdi_3%	hdi_97%
crescimento das plantas[0]	12.149	0,515	11.193	13.135
crescimento das plantas[1]	29.809	0,508	28.832	30.717
crescimento das plantas[2]	-0,131	0,507	-1.121	0,791

Começando

Se você já conhece estatísticas bayesianas:

Guia de início rápido da API
O tutorial PyMC
Exemplos PyMC e a referência da API

Aprenda estatísticas bayesianas com um livro junto com PyMC

Análise Bayesiana com Python (terceira edição) de Osvaldo Martin: Ótimo livro introdutório.
Programação Probabilística e Métodos Bayesianos para Hackers: Livro fantástico com muitos exemplos de código aplicado.
Versão PyMC do livro "Doing Bayesian Data Analysis" de John Kruschke, bem como da primeira edição.
Versão PyMC do livro "Statistical Rethinking A Bayesian Course com exemplos em R e Stan" de Richard McElreath
Versão PyMC do livro "Modelagem Cognitiva Bayesiana" de Michael Lee e EJ Wagenmakers: Focado no uso de estatísticas bayesianas em modelagem cognitiva.

Áudio e Vídeo

Aqui está uma playlist do YouTube reunindo várias palestras sobre PyMC.
Você também pode encontrar todas as palestras proferidas no PyMCon 2020 aqui.
O podcast "Aprendendo Estatísticas Bayesianas" ajuda você a descobrir e se manter atualizado com a vasta comunidade Bayesiana. Bônus: é hospedado por Alex Andorra, um dos principais desenvolvedores do PyMC!

Instalação

Para instalar o PyMC em seu sistema, siga as instruções do guia de instalação.

Citando PyMC

Escolha entre os seguintes:

PyMC: Uma Estrutura de Programação Probabilística Moderna e Abrangente em Python , Abril-Pla O, Andreani V, Carroll C, Dong L, Fonnesbeck CJ, Kochurov M, Kumar R, Lao J, Luhmann CC, Martin OA, Osthege M, Vieira R, Wiecki T, Zinkov R. (2023)
Um DOI para todas as versões.
DOIs para versões específicas são mostrados no Zenodo e em Releases

Contato

Estamos usando discurso.pymc.io como nosso principal canal de comunicação.

Para fazer perguntas sobre modelagem ou uso do PyMC, encorajamos a postagem em nosso fórum do Discourse na categoria “Perguntas”. Você também pode sugerir recurso na categoria “Desenvolvimento”.

Você também pode nos seguir nestas plataformas de mídia social para atualizações e outros anúncios:

LinkedIn @pymc
YouTube @PyMCDevelopers
@pymc_devs
Mastodonte @[email protected]

Para relatar um problema com o PyMC, use o rastreador de problemas.

Por fim, caso necessite entrar em contato para obter informações não técnicas sobre o projeto, envie-nos um e-mail.

Licença

Licença Apache, versão 2.0

Software usando PyMC

Uso geral

Bambi: Interface de construção de modelo BAyesian (BAMBI) em Python.
calibr8: Uma caixa de ferramentas para construir modelos de observação detalhados para serem usados como probabilidades no PyMC.
gumbi: Uma interface de alto nível para construção de modelos GP.
SunODE: Solucionador ODE rápido, muito mais rápido que aquele que vem com o PyMC.
pymc-learn: modelos PyMC personalizados criados com base na API pymc3_models/scikit-learn

Específico do domínio

Exoplaneta: um kit de ferramentas para modelagem de observações de trânsito e/ou velocidade radial de exoplanetas e outras séries temporais astronômicas.
beat: Ferramenta de análise de terremotos bayesianos.
CausalPy: Um pacote focado na inferência causal em ambientes quase experimentais.

Entre em contato conosco se o seu software não estiver listado aqui.