HypEx(假設和實驗)是一個綜合庫,旨在簡化資料分析中的因果推理和 AB 測試流程。 HypEx 專為提高效率和效果而開發,採用魯賓因果模型 (RCM) 來匹配密切相關的對,確保在估計治療效果時進行公平的群體比較。
HypEx 擁有完全自動化的流程,能夠熟練地計算平均治療效果 (ATE)、治療組的平均治療效果 (ATT) 和對照組的平均治療效果 (ATC)。它提供了用於執行這些估計值的標準化介面,從而深入了解幹預措施對不同人群亞組的影響。
除了因果推理之外,HypEx 還配備了強大的 AB 測試工具,包括雙重差分 (Diff-in-Diff) 和 CUPED 方法,以嚴格測試假設並驗證實驗結果。
HypEx 中的某些功能可以幫助解決特定的輔助任務,但無法自動化實驗設計決策。下面,我們將討論 HypEx 中實現但不自動化實驗設計的功能。
注意:對於匹配,建議不要使用超過 7 個特徵,因為這可能會導致維數災難,使結果不具代表性。
特徵選擇模擬了特徵對於目標逼近準確度的重要性。但不排除特徵被忽略的可能性,特徵對目標描述的複雜影響,或特徵從業務邏輯角度的意義。如果存在資料外洩,演算法將無法正常運作。
選擇功能時要考慮的要點:
連結到 ReadTheDocs
隨機治療演算法隨機打亂實際治療。預計治療對目標的效果將接近0。
這些方法不足以準確地標記實驗是否成功。
連結到 ReadTheDocs
pip install -U hypex
在這裡探索使用範例和教學。
from hypex import Matcher
from hypex . utils . tutorial_data_creation import create_test_data
# Define your data and parameters
df = create_test_data ( rs = 42 , na_step = 45 , nan_cols = [ 'age' , 'gender' ])
info_col = [ 'user_id' ]
outcome = 'post_spends'
treatment = 'treat'
model = Matcher ( input_data = df , outcome = outcome , treatment = treatment , info_col = info_col )
results , quality_results , df_matched = model . estimate ()
from hypex import AATest
from hypex . utils . tutorial_data_creation import create_test_data
data = create_test_data ( rs = 52 , na_step = 10 , nan_cols = [ 'age' , 'gender' ])
info_cols = [ 'user_id' , 'signup_month' ]
target = [ 'post_spends' , 'pre_spends' ]
experiment = AATest ( info_cols = info_cols , target_fields = target )
results = experiment . process ( data , iterations = 1000 )
results . keys ()
from hypex import ABTest
from hypex . utils . tutorial_data_creation import create_test_data
data = create_test_data ( rs = 52 , na_step = 10 , nan_cols = [ 'age' , 'gender' ])
model = ABTest ()
results = model . execute (
data = data ,
target_field = 'post_spends' ,
target_field_before = 'pre_spends' ,
group_field = 'group'
)
model . show_beautiful_result ()
有關該庫及其功能的更多詳細信息,請訪問我們的 ReadTheDocs 文件。
您將找到幫助您開始使用 HypEx 的全面指南和教程,以及高級用例的詳細 API 文件。
加入我們充滿活力的社群!有關貢獻、報告問題或尋求支援的指南,請參閱我們的貢獻指南。
Habr (ru) - 了解 HypEx 如何徹底改變各領域的因果推理。
A/B 測試研討會 - NoML 中有關配對和 A/B 測試的研討會
與 HypEx 匹配:簡單指南 - 帶有解釋的簡單匹配指南
與 HypEx 匹配:分組 - 使用分組指南進行匹配
HypEx 與因果推理和 DoWhy - 了解為什麼 HypEx 是因果推理的最佳解決方案
HypEx 與因果推理和 DoWhy:第 2 部分 - 了解為什麼 HypEx 是因果推理的最佳解決方案
造訪 Kaggle 中的筆記本並自行估計結果。
團體規模 | 32768 | 65536 | 131 072 | 262 144 | 524288 | 1 048 576 | 2 097 152 | 4 194 304 |
---|---|---|---|---|---|---|---|---|
因果推理 | 46秒 | 169秒 | 沒有任何 | 沒有任何 | 沒有任何 | 沒有任何 | 沒有任何 | 沒有任何 |
做為什麼 | 9秒 | 19秒 | 40多歲 | 77s | 159秒 | 312s | 615s | 1235秒 |
HypEx 與分組 | 2秒 | 6秒 | 16秒 | 42秒 | 167秒 | 509s | 1932秒 | 7 248秒 |
沒有分組的 HypEx | 2秒 | 7秒 | 21秒 | 101秒 | 273秒 | 982s | 3 750秒 | 14 720秒 |
有疑問或想討論 HypEx?加入我們的 Telegram 聊天並與社群和開發人員聯繫。
HypEx 是資料分析師和研究人員深入研究因果推理和 AB 測試不可或缺的資源。憑藉其自動化功能、複雜的匹配技術和徹底的驗證程序,HypEx 準備以前所未有的速度和精度揭示複雜資料集中的因果關係。