lightweight_mmmダウンロード - lightweight_mmmソースコードのダウンロード

lightweight_mmm

その他のソースコード

v0.1.9

ダウンロード

軽量 (ベイジアン) マーケティングミックスモデリング

新しい Google MMM

2024 年 3 月 7 日の時点で、Google はMeridianと呼ばれる新しい公式ベイジアン MMM バージョンをリリースしました。 Meridian は現在、一部の広告主向けに限定的に提供されています。詳細については、このサイトにアクセスするか、Google 担当者にお問い合わせください。 Meridian が一般提供されると、LMMM バージョンは廃止されます。

LMMM は、組織がメディアチャネル全体にわたるマーケティング支出を理解し、最適化するのに役立つ Python ライブラリです。

これは Google の公式製品ではありません。

ドキュメント • はじめに • 理論 • 入門 • 参考文献 • コミュニティのスポットライト

導入

マーケティングミックスモデリング (MMM) は、広告主が広告の効果を測定し、メディアチャネル全体での予算配分の決定を通知するために使用されます。集約されたデータに基づく測定により、アトリビューションモデリングに影響を与える可能性のある最近のエコシステムの変化 (一部はプライバシーに関連するもの) の影響を受けないだけでなく、オンラインチャネルとオフラインチャネル間の比較が可能になります。 MMM を使用すると、次のことが可能になります。

メディアチャネル全体での最適な予算配分を見積もります。
支出の変化に応じてメディアチャネルがどのようにパフォーマンスを発揮するかを理解します。
メディアチャネルごとに目標KPI（売上など）への影響を調査します。

MMM にベイジアンアプローチを採用すると、広告主は以前の情報をモデリングに統合できるため、次のことが可能になります。

業界の経験やベイズ事前分布を使用した以前のメディアミックスモデルからの情報を利用します。
パラメーターとモデルの不確実性の両方についてレポートし、それを予算の最適化に反映します。
地理などのブレークアウトディメンションを使用して、一般に信頼区間が狭い階層モデルを構築します。

LightweightMMM パッケージ (Numpyro と JAX を使用して構築) は、データを適切にスケーリングし、モデルを評価し、予算配分を最適化し、現場で使用される一般的なグラフをプロットする機能を提供することで、広告主がベイジアン MMM モデルを簡単に構築できるようにします。

理論

簡略化されたモデルの概要

MMM は、他の要因を制御しながら、メディアチャネルのアクティビティと売上の関係を定量化します。簡略化したモデルの概要を以下に示します。完全なモデルはモデルのドキュメントに記載されています。 MMM は通常、週次レベルの観察を使用して実行されます (たとえば、KPI は週ごとの売上など) が、日次レベルで実行することもできます。

$$kpi = アルファ + トレンド + 季節性 + メディアチャネル + その他要素$$

ここで、 kpi は通常、期間ごとの売上高または金額を指します。 $アルファ$はモデル切片、 $トレンド$データの傾向を捉える柔軟な非線形関数です。 $季節性$季節の傾向を柔軟に捉える構成可能なパラメーターを備えた正弦関数です。 $メディアチャンネル$さまざまなメディアチャネルアクティビティ (通常は期間ごとのインプレッションまたはコスト) のマトリックスであり、使用されるモデルに応じて変換が行われます (メディアの飽和と遅れのセクションを参照)。 $その他要因$は、売上に影響を与える可能性のあるその他の要因のマトリックスです。

標準モデルと階層モデル

LightweightMMM は、国家レベルで集約されたデータ (標準アプローチ) または地域レベルで集約されたデータ (準国家階層アプローチ) を使用して実行できます。

全国レベル (標準的なアプローチ)。このアプローチは、利用可能なデータが国レベルでのみ集計されている場合に適切です (たとえば、KPI は期間ごとの全国売上高である可能性があります)。これは MMM で使用される最も一般的な形式です。
地理レベル (準国家階層的アプローチ)。このアプローチは、データを準国家レベルで集計できる場合に適しています (たとえば、KPI は国内の各州の期間ごとの売上である可能性があります)。このアプローチでは、モデルに適合させるためにより多くのデータポイントが使用されるため、標準的なアプローチと比較してより正確な結果が得られます。可能であれば、米国などの大規模な国では準国家レベルのモデルを使用することをお勧めします。

メディアの飽和と遅延

販売に対するメディアチャネルの影響には、時間の経過とともにゆっくりと減少する遅効性の影響がある可能性があります。当社の強力なベイジアン MMM モデルアーキテクチャは、この効果を捉えるように設計されており、3 つの異なるアプローチを提供します。 3 つのアプローチをすべて比較し、最も効果的なアプローチを使用することをお勧めします。最も効果的なアプローチは、通常、サンプル外の適合が最も優れているアプローチ (生成された出力の 1 つ) です。これら 3 つのアプローチの機能形式は以下で簡単に説明されており、モデルのドキュメントに完全に表現されています。

Adstock: 時間の経過とともに重みが減少する無限のラグを適用します。
Hill-Adstock: adstock 関数の出力に収益逓減のためのシグモイドのような関数を適用します。
キャリーオーバー: 遠くの値よりも近くの値に重みを与える因果畳み込みを適用します。

フローチャート

はじめる

インストール

Lightweight_mmm をインストールする推奨される方法は、PyPi を使用することです。

pip install --upgrade pip
pip install lightweight_mmm

最新の、若干安定性の低いバージョンを使用したい場合は、github からインストールできます。

pip install --upgrade git+https://github.com/google/lightweight_mmm.git

Google Colab を使用している場合は、インストール後に必ずランタイムを再起動してください。

データの準備

ここではシミュレートされたデータを使用しますが、この時点でデータがクリーン化されていることを前提としています。必要なデータは次のとおりです。

メディアデータ: チャネルおよび期間ごとの指標 (期間ごとのインプレッション数など) が含まれます。メディア値には負の値を含めることはできません。
追加機能: 分析に追加したいその他の機能。これらの特徴は、最適化のために事前に把握しておく必要があり、そうでない場合は、それらを推定するために別のモデルが必要になります。
ターゲット: モデルが予測するターゲット KPI。たとえば、収益額、アプリのインストール数などです。これは、最適化フェーズ中に最適化されるメトリックでもあります。
コスト: チャネルごとのメディアユニットあたりの合計コスト。

 # Let's assume we have the following datasets with the following shapes (we use
the `simulate_dummy_data` function in utils for this example ):
media_data , extra_features , target , costs = utils . simulate_dummy_data (
    data_size = 160 ,
    n_media_channels = 3 ,
    n_extra_features = 2 ,
    geos = 5 ) # Or geos=1 for national model

スケーリングはちょっとした技術であり、入力データが小規模な場合にはベイジアン手法がうまく機能します。変数の中心を 0 にすべきではありません。売上とメディアの下限は 0 でなければなりません。

y y / jnp.mean(y)としてスケーリングできます。
media X_m / jnp.mean(X_m, axis=0)としてスケーリングできます。これは、新しい列の平均が 1 になることを意味します。

広く使用されているスケーラーがユースケースに適合しない場合に備えて、乗算と除算のスケーリングを適用できるCustomScalerを提供します。モデルをフィッティングする前に、それに応じてデータをスケーリングします。以下は、このCustomScalerの使用例です。

 # Simple split of the data based on time.
split_point = data_size - data_size // 10
media_data_train = media_data [: split_point , :]
target_train = target [: split_point ]
extra_features_train = extra_features [: split_point , :]
extra_features_test = extra_features [ split_point :, :]

# Scale data
media_scaler = preprocessing . CustomScaler ( divide_operation = jnp . mean )
extra_features_scaler = preprocessing . CustomScaler ( divide_operation = jnp . mean )
target_scaler = preprocessing . CustomScaler (
    divide_operation = jnp . mean )
# scale cost up by N since fit() will divide it by number of time periods
cost_scaler = preprocessing . CustomScaler ( divide_operation = jnp . mean )

media_data_train = media_scaler . fit_transform ( media_data_train )
extra_features_train = extra_features_scaler . fit_transform (
    extra_features_train )
target_train = target_scaler . fit_transform ( target_train )
costs = cost_scaler . fit_transform ( unscaled_costs )

変数に多くの 0 が含まれる場合は、ゼロ以外の値の平均によってスケーリングすることもできます。たとえば、ラムダ関数を使用してこれを行うことができます: lambda x: jnp.mean(x[x > 0]) 。コストのスケーリングにも同じことが当てはまります。

モデルのトレーニング

このモデルには、メディアデータ、追加機能、チャネルごとの各メディアユニットのコスト、およびターゲットが必要です。使用するサンプルの数とチェーンの数を渡すこともできます。

複数のチェーンを並行して実行するには、ユーザーはnumpyro.set_host_device_countチェーンの数または使用可能な CPU の数に設定する必要があります。

以下の例を参照してください。

 # Fit model.
mmm = lightweight_mmm . LightweightMMM ()
mmm . fit ( media = media_data ,
        extra_features = extra_features ,
        media_prior = costs ,
        target = target ,
        number_warmup = 1000 ,
        number_samples = 1000 ,
        number_chains = 2 )

モデル内のプリアを変更したい場合は (常に指定しているメディアプリアを除く)、 custom_priorsを使用して変更できます。

 # See detailed explanation on custom priors in our documentation.
custom_priors = { "intercept" : numpyro . distributions . Uniform ( 1 , 5 )}

# Fit model.
mmm = lightweight_mmm . LightweightMMM ()
mmm . fit ( media = media_data ,
        extra_features = extra_features ,
        media_prior = costs ,
        target = target ,
        number_warmup = 1000 ,
        number_samples = 1000 ,
        number_chains = 2 ,
        custom_priors = custom_priors )

詳細については、custom_priors に関するドキュメントを参照してください。

weekday_seasonality=Trueおよびseasonality_frequency=365 、またはweekday_seasonality=Falseおよびseasonality_frequency=52 (デフォルト)を有効にすることで、日次データと週次データを切り替えることができます。日次データの場合、離散平日と平滑年次の 2 種類の季節性があります。

モデル診断

収束チェック

ユーザーは次のようにパラメータの収束メトリクスを確認できます。

 mmm . print_summary ()

経験則では、すべてのパラメータのr_hat値は 1.1 未満です。

フィッティングチェック

ユーザーは、次の方法で真の KPI と予測された KPI の適合性を確認できます。

 plot . plot_model_fit ( media_mix_model = mmm , target_scaler = target_scaler )

preprocessing.CustomScaler()に使用されるtarget_scalerが指定されている場合、ターゲットはスケーリングされません。ベイジアン R 二乗と MAPE がグラフに示されています。

予測チェック

ユーザーは次の方法でテストデータの予測を取得できます。

 prediction = mmm . predict (
    media = media_data_test ,
    extra_features = extra_data_test ,
    target_scaler = target_scaler
)

返される予測は分布です。点推定値が必要な場合、ユーザーは指定された分布に基づいて推定点を計算できます。たとえば、テストデータのdata_sizeが 20、 number_samplesが 1000、 number_of_chainsが 2 の場合、 mmm.predict 20 データポイントを持つ 2000 セットの予測を返します。ユーザーは、分布をテストデータの真の値と比較し、平均や中央値などの指標を計算できます。

パラメータ推定チェック

ユーザーは次の方法でパラメータ推定の詳細を取得できます。

 mmm . print_summary ()

上記は、各パラメーターの平均、標準偏差、中央値、および信頼区間を返します。分布図は以下から提供されます。

 plot . plot_media_channel_posteriors ( media_mix_model = mmm , channel_names = media_names )

channel_names各チャートのメディア名を指定します。

メディアの洞察

応答曲線は次のように提供されます。

 plot . plot_response_curves ( media_mix_model = mmm , media_scaler = media_scaler , target_scaler = target_scaler )

preprocessing.CustomScaler()に使用されるmedia_scalerとtarget_scaler指定されている場合、メディアとターゲットの値は両方ともスケールされません。

メディアの効果と ROI の推定を抽出するには、ユーザーは次のことを実行できます。

 media_effect_hat , roi_hat = mmm . get_posterior_metrics ()

media_effect_hatはメディア効果の推定値、 roi_hat ROI 推定値です。その後、ユーザーは次のように推定値の分布を視覚化できます。

 plot . plot_bars_media_metrics ( metric = media_effect_hat , channel_names = media_names )

 plot . plot_bars_media_metrics ( metric = roi_hat , channel_names = media_names )

最適化の実行

最適化のために、メディアの合計コストが一定になるようにメディア入力を変更して売上を最大化します。また、各メディア入力に適切な制限 (例: +- x%) を許可することもできます。私たちはチャネル全体でのみ最適化を行い、長期にわたる最適化は行いません。最適化を実行するには、次の主なパラメータが必要です。

n_time_periods : シミュレートする期間の数 (例: 毎週のデータでモデルをトレーニングした場合は、次の 10 週間を最適化します)。
トレーニングされたモデル。
次のn_time_periodsに割り当てるbudget 。
次のn_time_periodsのトレーニングに使用される追加機能。
チャネルごとのメディアユニットあたりの価格。
media_gap 、トレーニングデータの終わりと、指定されたサンプルメディアの始まりとの間のメディアデータギャップを指します。例えば。 100 週間のデータがトレーニングに使用され、トレーニングデータが終了してから 2 か月後に予測が開始される場合、データ変換 (アドストック、キャリーオーバーなど) が正しく行われるように、トレーニングデータと予測データの間に欠落している 8 週間を提供する必要があります。。

以下の最適化の例を参照してください。

 # Run media optimization.
budget = 40 # your budget here
prices = np . array ([ 0.1 , 0.11 , 0.12 ])
extra_features_test = extra_features_scaler . transform ( extra_features_test )
solution = optimize_media . find_optimal_budgets (
    n_time_periods = extra_features_test . shape [ 0 ],
    media_mix_model = mmm ,
    budget = budget ,
    extra_features = extra_features_test ,
    prices = prices )

モデルを保存してロードする

ユーザーは次のようにモデルを保存およびロードできます。

 utils . save_model ( mmm , file_path = 'file_path' )

ユーザーはfile_pathを指定してモデルを保存できます。保存した MMM モデルをロードするには:

 utils . load_model ( file_path : 'file_path' )

LightweightMMM を引用

このリポジトリを引用するには:

 @software{lightweight_mmmgithub,
  author = {Pablo Duque and Dirk Nachbar and Yuka Abe and Christiane Ahlheim and Mike Anderson and Yan Sun and Omri Goldstein and Tim Eck},
  title = {LightweightMMM: Lightweight (Bayesian) Marketing Mix Modeling},
  url = {https://github.com/google/lightweight_mmm},
  version = {0.1.6},
  year = {2022},
}

参考文献

Jin, Y.、Wang, Y.、Sun, Y.、Chan, D.、Koehler, J. (2017)。キャリーオーバーと形状効果を使用したメディアミックスモデリングのためのベイジアン手法。グーグル株式会社
チャン D.、ペリー M. (2017)。メディアミックスモデリングにおける課題と機会。
Sun, Y.、Wang, Y.、Jin, Y.、Chan, D.、Koehler, J. (2017)。地域レベルのベイジアン階層メディアミックスモデリング。

サポート

LMMM は Google の公式製品ではないため、LMMM チームは限定的なサポートしか提供できません。

方法論に関する質問については、「参考文献」セクションまたは「FAQ」ページを参照してください。

LMMM のインストールまたは使用に関する問題については、Github リポジトリの [ディスカッション] タブまたは [問題] タブに自由に投稿してください。 LMMM チームは空き時間にこれらの質問に回答するため、残念ながらタイムリーな回答を保証することはできません。また、コミュニティがここで互いにヒントやアドバイスを共有することも奨励しています。

機能リクエストについては、Github リポジトリの [ディスカッション] タブに投稿してください。私たちは LMMM 開発の社内ロードマップを持っていますが、機能のリクエストには注意を払い、感謝しています。

バグレポートについては、Github リポジトリの [問題] タブに投稿してください。それらに対処できる場合は、問題のコメントでお知らせします。

プルリクエストは歓迎されますが、このリポジトリ内のコードは Google の内部システムにリンクされており、内部レビューに合格する必要があるため、マージは非常に困難です。プルリクエストを送信し、それをマージするためのリソースがある場合は、そのことについてご連絡いたします。