pymc Download - pymc -Quellcode herunterladen

pymc

Python

v5.19.1

Herunterladen

Build-Status

PyMC (ehemals PyMC3) ist ein Python-Paket für die bayesianische statistische Modellierung mit Schwerpunkt auf fortgeschrittenen Markov-Ketten-Monte-Carlo- (MCMC) und Variationsinferenz- (VI) Algorithmen. Aufgrund seiner Flexibilität und Erweiterbarkeit ist es auf eine Vielzahl von Problemen anwendbar.

Schauen Sie sich die PyMC-Übersicht oder eines der vielen Beispiele an! Bei Fragen zu PyMC besuchen Sie unser PyMC-Diskursforum.

Merkmale

Intuitive Modellspezifikationssyntax, zum Beispiel x ~ N(0,1) übersetzt in x = Normal('x',0,1)
Leistungsstarke Sampling-Algorithmen wie der No U-Turn Sampler ermöglichen komplexe Modelle mit Tausenden von Parametern mit geringen Spezialkenntnissen über Anpassungsalgorithmen.
Variationsinferenz : ADVI für schnelle approximative Posterior-Schätzung sowie Mini-Batch-ADVI für große Datensätze.
Verlässt sich auf PyTensor, das Folgendes bietet:
- Berechnungsoptimierung und dynamische C- oder JAX-Kompilierung
- NumPy-Broadcasting und erweiterte Indizierung
- Lineare Algebra-Operatoren
- Einfache Erweiterbarkeit
Transparente Unterstützung für die Imputation fehlender Werte

Beispiel einer linearen Regression

Das Pflanzenwachstum kann durch mehrere Faktoren beeinflusst werden, und das Verständnis dieser Zusammenhänge ist für die Optimierung landwirtschaftlicher Praktiken von entscheidender Bedeutung.

Stellen Sie sich vor, wir führen ein Experiment durch, um das Wachstum einer Pflanze anhand verschiedener Umgebungsvariablen vorherzusagen.

 import pymc as pm

# Taking draws from a normal distribution
seed = 42
x_dist = pm . Normal . dist ( shape = ( 100 , 3 ))
x_data = pm . draw ( x_dist , random_seed = seed )

# Independent Variables:
# Sunlight Hours: Number of hours the plant is exposed to sunlight daily.
# Water Amount: Daily water amount given to the plant (in milliliters).
# Soil Nitrogen Content: Percentage of nitrogen content in the soil.


# Dependent Variable:
# Plant Growth (y): Measured as the increase in plant height (in centimeters) over a certain period.


# Define coordinate values for all dimensions of the data
coords = {
 "trial" : range ( 100 ),
 "features" : [ "sunlight hours" , "water amount" , "soil nitrogen" ],
}

# Define generative model
with pm . Model ( coords = coords ) as generative_model :
   x = pm . Data ( "x" , x_data , dims = [ "trial" , "features" ])

   # Model parameters
   betas = pm . Normal ( "betas" , dims = "features" )
   sigma = pm . HalfNormal ( "sigma" )

   # Linear model
   mu = x @ betas

   # Likelihood
   # Assuming we measure deviation of each plant from baseline
   plant_growth = pm . Normal ( "plant growth" , mu , sigma , dims = "trial" )


# Generating data from model by fixing parameters
fixed_parameters = {
 "betas" : [ 5 , 20 , 2 ],
 "sigma" : 0.5 ,
}
with pm . do ( generative_model , fixed_parameters ) as synthetic_model :
   idata = pm . sample_prior_predictive ( random_seed = seed ) # Sample from prior predictive distribution.
   synthetic_y = idata . prior [ "plant growth" ]. sel ( draw = 0 , chain = 0 )


# Infer parameters conditioned on observed data
with pm . observe ( generative_model , { "plant growth" : synthetic_y }) as inference_model :
   idata = pm . sample ( random_seed = seed )

   summary = pm . stats . summary ( idata , var_names = [ "betas" , "sigma" ])
   print ( summary )

Aus der Zusammenfassung können wir ersehen, dass der Mittelwert der abgeleiteten Parameter sehr nahe an den festen Parametern liegt

Parameter	bedeuten	sd	hdi_3%	hdi_97%	mcse_mean	mcse_sd	ess_bulk	ess_tail	r_hat
Betas[Sonnenlichtstunden]	4.972	0,054	4.866	5.066	0,001	0,001	3003	1257	1
Betas[Wassermenge]	19.963	0,051	19.872	20.062	0,001	0,001	3112	1658	1
Betas[Bodenstickstoff]	1.994	0,055	1.899	2.107	0,001	0,001	3221	1559	1
Sigma	0,511	0,037	0,438	0,575	0,001	0	2945	1522	1

 # Simulate new data conditioned on inferred parameters
new_x_data = pm . draw (
   pm . Normal . dist ( shape = ( 3 , 3 )),
   random_seed = seed ,
)
new_coords = coords | { "trial" : [ 0 , 1 , 2 ]}

with inference_model :
   pm . set_data ({ "x" : new_x_data }, coords = new_coords )
   pm . sample_posterior_predictive (
      idata ,
      predictions = True ,
      extend_inferencedata = True ,
      random_seed = seed ,
   )

pm . stats . summary ( idata . predictions , kind = "stats" )

Die neuen Daten, die auf abgeleiteten Parametern basieren, würden wie folgt aussehen:

Ausgabe	bedeuten	sd	hdi_3%	hdi_97%
Pflanzenwachstum[0]	14.229	0,515	13.325	15.272
Pflanzenwachstum[1]	24.418	0,511	23.428	25.326
Pflanzenwachstum[2]	-6,747	0,511	-7.740	-5,797

 # Simulate new data, under a scenario where the first beta is zero
with pm . do (
 inference_model ,
 { inference_model [ "betas" ]: inference_model [ "betas" ] * [ 0 , 1 , 1 ]},
) as plant_growth_model :
   new_predictions = pm . sample_posterior_predictive (
      idata ,
      predictions = True ,
      random_seed = seed ,
   )

pm . stats . summary ( new_predictions , kind = "stats" )

Die neuen Daten würden im obigen Szenario wie folgt aussehen:

Ausgabe	bedeuten	sd	hdi_3%	hdi_97%
Pflanzenwachstum[0]	12.149	0,515	11.193	13.135
Pflanzenwachstum[1]	29.809	0,508	28.832	30.717
Pflanzenwachstum[2]	-0,131	0,507	-1.121	0,791

Erste Schritte

Wenn Sie sich bereits mit Bayes'schen Statistiken auskennen:

API-Schnellstartanleitung
Das PyMC-Tutorial
PyMC-Beispiele und die API-Referenz

Lernen Sie Bayes'sche Statistik mit einem Buch zusammen mit PyMC

Bayesian Analysis with Python (dritte Auflage) von Osvaldo Martin: Tolles Einführungsbuch.
Probabilistische Programmierung und Bayesianische Methoden für Hacker: Fantastisches Buch mit vielen angewandten Codebeispielen.
PyMC-Portierung des Buches „Doing Bayesian Data Analysis“ von John Kruschke sowie der Erstausgabe.
PyMC-Portierung des Buches „Statistical Rethinking A Bayesian Course with Examples in R and Stan“ von Richard McElreath
PyMC-Portierung des Buches „Bayesian Cognitive Modeling“ von Michael Lee und EJ Wagenmakers: Konzentriert sich auf die Verwendung von Bayesian-Statistiken in der kognitiven Modellierung.

Audio und Video

Hier ist eine YouTube-Playlist mit mehreren Vorträgen zu PyMC.
Alle Vorträge der PyMCon 2020 finden Sie auch hier.
Der Podcast „Learning Bayesian Statistics“ hilft Ihnen, die große Bayesian-Community zu entdecken und auf dem Laufenden zu bleiben. Bonus: Es wird von Alex Andorra gehostet, einem der PyMC-Kernentwickler!

Installation

Um PyMC auf Ihrem System zu installieren, befolgen Sie die Anweisungen im Installationshandbuch.

Unter Berufung auf PyMC

Bitte wählen Sie aus Folgendem:

PyMC: Ein modernes und umfassendes probabilistisches Programmier-Framework in Python , Abril-Pla O, Andreani V, Carroll C, Dong L, Fonnesbeck CJ, Kochurov M, Kumar R, Lao J, Luhmann CC, Martin OA, Osthege M, Vieira R, Wiecki T, Zinkov R. (2023)
Ein DOI für alle Versionen.
DOIs für bestimmte Versionen werden auf Zenodo und unter „Releases“ angezeigt

Kontakt

Wir nutzen discourse.pymc.io als unseren Hauptkommunikationskanal.

Wenn Sie eine Frage zur Modellierung oder Verwendung von PyMC stellen möchten, empfehlen wir Ihnen, diese in unserem Diskursforum in der Kategorie „Fragen“ zu posten. Sie können auch Funktionen in der Kategorie „Entwicklung“ vorschlagen.

Sie können uns auch auf diesen Social-Media-Plattformen folgen, um Updates und andere Ankündigungen zu erhalten:

LinkedIn @pymc
YouTube @PyMCDevelopers
X @pymc_devs
Mastodon @[email protected]

Um ein Problem mit PyMC zu melden, verwenden Sie bitte den Issue-Tracker.

Wenn Sie schließlich nichttechnische Informationen zum Projekt benötigen, senden Sie uns eine E-Mail.

Lizenz

Apache-Lizenz, Version 2.0

Software mit PyMC

Allgemeiner Zweck

Bambi: BAyesian Model-Building Interface (BAMBI) in Python.
Kalibrier8: Eine Toolbox zum Erstellen detaillierter Beobachtungsmodelle zur Verwendung als Wahrscheinlichkeiten in PyMC.
Gumbi: Eine High-Level-Schnittstelle zum Erstellen von GP-Modellen.
SunODE: Schneller ODE-Solver, viel schneller als der mit PyMC gelieferte.
pymc-learn: Benutzerdefinierte PyMC-Modelle, die auf der API pymc3_models/scikit-learn basieren

Domänenspezifisch

Exoplanet: ein Toolkit zur Modellierung von Transit- und/oder Radialgeschwindigkeitsbeobachtungen von Exoplaneten und anderen astronomischen Zeitreihen.
beat: Bayesianisches Erdbebenanalysetool.
CausalPy: Ein Paket, das sich auf kausale Schlussfolgerungen in quasi-experimentellen Umgebungen konzentriert.

Bitte kontaktieren Sie uns, wenn Ihre Software hier nicht aufgeführt ist.

Artikel, in denen PyMC zitiert wird

Eine ständig aktualisierte Liste finden Sie hier und hier bei Google Scholar.

Mitwirkende

Weitere Informationen finden Sie auf der GitHub-Mitwirkendenseite. Lesen Sie auch unsere Verhaltenskodex-Richtlinien für ein besseres Beitragserlebnis.