Cloud FormationでAWSリソースを使ったRedash環境を構築してみる

AWS Redash

Cloud FormationでAWSリソースを使ったRedash環境を構築してみました。Redashの開発環境の際必要となったことを備忘録として残せたらと思います。 Redashとは役割構成要素クエリ実行フロー作りたいもの Redashの注意点環境変数の変更 Redashのバージョ…

2020-06-05

技術調査メモ：Cloud Run (fully managed)とCloud Run for Anthosを比較してみる_20200605

Cloud Run

Cloud Run (fully managed) Cloud Run for Anthosの違いを調べてみました。機能比較 Cloud Run (fully managed) Cloud Run for Anthos Quotas and Limits Cloud Run Connecting to Google Cloud services 料金体系について参考 GKE と Cloud Run、どう使い…

2020-06-04

技術調査メモ：Google提供のDataflowテンプレートでできること、できないこと_20200604

Dataflow

Dataflow テンプレートを使用すると、Cloud Storage 上のパイプラインをステージングして、さまざまな環境で実行できます。テンプレートは、Google 提供のテンプレートを使用することも、自身で作成することもできます。 Google提供のDataflowテンプレートで…

2020-06-02

Change Trackingを使って、SQL Serverのデータ変更箇所を取得する

差分更新連携を行うために、SQL Serverのデータ変更追跡機能を使ってみました。 SQL Serverからリアルタイムに連携するために、差分更新機能を検討しています。実行環境を準備コンテナを起動データベースとテーブル作成データを追加 Change Trackingを使…

2020-06-01

BigQueryのFlex Slotsで柔軟にスロットを購入してジョブを制御する

GCP BigQuery

BigQueryのFlex Slotsを試して見ました。バッチで重たいタスクの前にFlex Slotsを購入し、タスク完了後Flex Slotsを元に戻します。 BigQuery Flex Slotsについてやりたいこと実行コマンド Commitment Reservation Removement 環境情報権限 BQコマンドの認…

2020-05-28

DigdagとEmbulkを使って並列処理をしてみる

digdag Embulk

DigdagとEmbulkを使って並列処理を行った際の備忘録です。 Embulkを使った並列処理環境や実装方法について Dockerfie 秘密情報 docker-compose プロジェクトと秘密情報の登録 Embulkの設定ファイル。 Embulkを使った並列処理 Embulkを使って並列処理を行い…

2020-05-28

FluentdのInputプラグインを作って、定期的にSQLServerからPubSubにデータを転送してみる

GCP fluentd Pub/Sub

備忘録としてFluentdのInputプラグインの作り方を残しておきます。作るプラグインについて Dockerfile 自作プラグインをつくるプラグインの実装サンプル設定ファイル起動動作確認所感作るプラグインについて SQL Serverからデータを取り出し、取得結…

2020-05-25

効果検証入門を読んでみた所感

頭の整理にもなるので効果検証入門を読んだ所感と実務に使えそうな方法を整理してみました。簡単に書籍の紹介本書はバイアスがある中で、バイアスを取り除いた介入の本当の効果を調べる手法を紹介しています。例えば、購買意欲の高いユーザに広告配信を行…

2020-05-24

書籍メモ：効果検証入門 5章回帰不連続デザイン(RDD)

因果推論統計学 R

効果検証入門 5章回帰不連続デザイン(RDD)の備忘録と所感になります。概要回帰不連続デザイン(RDD)とは活用用途について介入有無がルールで決められている場合(傾向スコアを使えない場合) 時系列で介入の変化が起きていない場合(DIDを使えない場合) 実…

2020-05-09

書籍メモ：効果検証入門４章差分の差分法(DID)とCausallmpact

効果検証入門４章差分の差分法(DID)とCausallmpactの備忘録となります。 DIDとは DIDを使いたい時 DID (Difference in Difference) 平行トレンド過程トレンドが同一ではない場合どうするのか？ 1. 仮定を満たさないデータを取り除くこと 2. トレンドの乖…

case-kの備忘録

日々の備忘録です。データ分析とか基盤系に興味あります。