2020-05-01から1ヶ月間の記事一覧
DigdagとEmbulkを使って並列処理を行った際の備忘録です。 Embulkを使った並列処理 環境や実装方法について Dockerfie 秘密情報 docker-compose プロジェクトと秘密情報の登録 Embulkの設定ファイル。 Embulkを使った並列処理 Embulkを使って並列処理を行い…
備忘録としてFluentdのInputプラグインの作り方を残しておきます。 作るプラグインについて Dockerfile 自作プラグインをつくる プラグインの実装サンプル 設定ファイル 起動 動作確認 所感 作るプラグインについて SQL Serverからデータを取り出し、取得結…
頭の整理にもなるので効果検証入門を読んだ所感と実務に使えそうな方法を整理してみました。 簡単に書籍の紹介 本書はバイアスがある中で、バイアスを取り除いた介入の本当の効果を調べる手法を紹介しています。 例えば、購買意欲の高いユーザに広告配信を行…
効果検証入門 5章 回帰不連続デザイン(RDD)の備忘録と所感になります。 概要 回帰不連続デザイン(RDD)とは 活用用途について 介入有無がルールで決められている場合(傾向スコアを使えない場合) 時系列で介入の変化が起きていない場合(DIDを使えない場合) 実…
効果検証入門 4章 差分の差分法(DID)とCausallmpactの備忘録となります。 DIDとは DIDを使いたい時 DID (Difference in Difference) 平行トレンド過程 トレンドが同一ではない場合どうするのか? 1. 仮定を満たさないデータを取り除くこと 2. トレンドの乖…
業務でDigdagを使う機会かあったので、DigDagを使ってBigQueryのジョブを実行してみました。 事前準備 JDK 8u72をインストール DigDagをインストール サービスアカウントキーを発行 データセットをつくる DigDagを使ってみる ジョブ 依存関係を定義 ディレク…
本記事は効果検証入門3章の備忘録となります。 概要 傾向スコアとは 活用用途について 傾向スコアマッチング IPW 実践 事前準備 傾向スコアマッチング マッチング後のデータで効果の推定 IPW 傾向スコアと回帰分析はどちらを使うべきか 所感 概要 傾向スコア…
効果検証の2章では回帰モデルを使い、介入変数の説明力から因果関係を解釈します。www.case-k.jp 概要 実践 データ項目 RCTでデータを絞り込む。 バイアスのあるデータを作る 回帰分析 分析結果のレポート 回帰分析におけるセレクションバイアスと解決策 セ…
本記事は効果検証入門1章の備忘録となります。gihyo.jp 概要 セレクションバイアスとは RCTとは RCTの状態をつくりだすにはコストがかかる 実践編 データ項目 RCTと効果検証 バイアスのあるデータの効果検証 概要 セレクションバイアスとは 比較しているグ…