case-kの備忘録

日々の備忘録です。データ分析とか基盤系に興味あります。

Change Trackingを使って、SQL Serverのデータ変更箇所を取得する

差分更新連携を行うために、SQL Serverのデータ変更追跡機能を使ってみました。 SQL Serverからリアルタイムに連携するために、差分更新機能を検討しています。 実行環境を準備 コンテナを起動 データベースとテーブル作成 データを追加 Change Trackingを使…

BigQueryのFlex Slotsで柔軟にスロットを購入してジョブを制御する

BigQueryのFlex Slotsを試して見ました。バッチで重たいタスクの前にFlex Slotsを購入し、タスク完了後Flex Slotsを元に戻します。 BigQuery Flex Slotsについて やりたいこと 実行コマンド Commitment Reservation Removement 環境情報 権限 BQコマンドの認…

DigdagとEmbulkを使って並列処理をしてみる

DigdagとEmbulkを使って並列処理を行った際の備忘録です。 Embulkを使った並列処理 環境や実装方法について Dockerfie 秘密情報 docker-compose プロジェクトと秘密情報の登録 Embulkの設定ファイル。 Embulkを使った並列処理 Embulkを使って並列処理を行い…

FluentdのInputプラグインを作って、定期的にSQLServerからPubSubにデータを転送してみる

備忘録としてFluentdのInputプラグインの作り方を残しておきます。 作るプラグインについて Dockerfile 自作プラグインをつくる プラグインの実装サンプル 設定ファイル 起動 動作確認 所感 作るプラグインについて SQL Serverからデータを取り出し、取得結…

効果検証入門を読んでみた所感

頭の整理にもなるので効果検証入門を読んだ所感と実務に使えそうな方法を整理してみました。 簡単に書籍の紹介 本書はバイアスがある中で、バイアスを取り除いた介入の本当の効果を調べる手法を紹介しています。 例えば、購買意欲の高いユーザに広告配信を行…

書籍メモ:効果検証入門 5章 回帰不連続デザイン(RDD)

効果検証入門 5章 回帰不連続デザイン(RDD)の備忘録と所感になります。 概要 回帰不連続デザイン(RDD)とは 活用用途について 介入有無がルールで決められている場合(傾向スコアを使えない場合) 時系列で介入の変化が起きていない場合(DIDを使えない場合) 実…

書籍メモ:効果検証入門 4章 差分の差分法(DID)とCausallmpact

効果検証入門 4章 差分の差分法(DID)とCausallmpactの備忘録となります。 DIDとは DIDを使いたい時 DID (Difference in Difference) 平行トレンド過程 トレンドが同一ではない場合どうするのか? 1. 仮定を満たさないデータを取り除くこと 2. トレンドの乖…

Digdagを使ってBigQueryのジョブを実行してみる

業務でDigdagを使う機会かあったので、DigDagを使ってBigQueryのジョブを実行してみました。 事前準備 JDK 8u72をインストール DigDagをインストール サービスアカウントキーを発行 データセットをつくる DigDagを使ってみる ジョブ 依存関係を定義 ディレク…

書籍メモ:効果検証入門 3章 傾向スコアを用いた分析

本記事は効果検証入門3章の備忘録となります。 概要 傾向スコアとは 活用用途について 傾向スコアマッチング IPW 実践 事前準備 傾向スコアマッチング マッチング後のデータで効果の推定 IPW 傾向スコアと回帰分析はどちらを使うべきか 所感 概要 傾向スコア…

書籍メモ:効果検証入門 2章 介入効果を測るための回帰分析 

効果検証の2章では回帰モデルを使い、介入変数の説明力から因果関係を解釈します。www.case-k.jp 概要 実践 データ項目 RCTでデータを絞り込む。 バイアスのあるデータを作る 回帰分析 分析結果のレポート 回帰分析におけるセレクションバイアスと解決策 セ…

書籍メモ:効果検証入門 1章 セレクションバイアスとRCT

本記事は効果検証入門1章の備忘録となります。gihyo.jp 概要 セレクションバイアスとは RCTとは RCTの状態をつくりだすにはコストがかかる 実践編 データ項目 RCTと効果検証 バイアスのあるデータの効果検証 概要 セレクションバイアスとは 比較しているグ…

Cloud BuildでGKEのデプロイ作業を自動化させる

Cloud Buildを使いアプリのデプロイ作業を自動化してみました。Cloud Source RepositoriesへのpushをトリガーにDockerfileをビルド、イメージをContainer Registry に登録、登録したイメージをGKEのクラスタにデプロイさせます。 Cloud Buildの基本操作 マニ…

Google Kubernetes Engineにアプリをデプロイする方法

Google Kubernetes Engine上にコンテナ化した株価アプリをデプロイしてみました。 アプリの構成 セットアップ GKEのクラスタを作成 DockerfileをGoogle Cloud Registoryにpushする マニフェストファイルの作成 Deploymentを定義(React+Nginx)ーreact-app-dep…

Google Container Registryの概要と実践

GKE上にアプリをデプロイさせる上でこれまで作ったアプリのイメージをレジストリに登録します。レジストリにはGCPのGoogle Container Registryを使ってみたいと思います。 概要 Container Registry とは 実践 Container Registry の認証 イメージをビルドす…

アプリをコンテナ化したのでローカルの開発環境をdocker-composeで整備した

アプリをコンテナ化したのでローカルの開発環境をdocker-composeで作りました。 構成 アプリの構成は次のようになっています。 React 役割:フロントエンド(Express APIから取得データの描画) Express 役割:バックエンド(BigQueryからのデータ取得) Nginx …

株価アプリをコンテナ化させる(React/Express)

株価アプリをコンテナ化して行きます。次のアプリのDockerfileを作りdocker-composeでコンテナ間通信させます。 www.case-k.jp Dockerfile Express モジュールのインストールと動作確認 Dockerfile作成 React モジュールのインストールと動作確認 Dockerfile…

entrykitのテンプレート機能を使い、Nginxの設定を環境変数で制御する

entrykitのテンプレート機能を使ってNginxのDockerfileを作ります。 Code entrykitとは Nginxのイメージを取得 コンテナ内の設定ファイルを確認 環境変数を制御 設定ファイルを作成 ログ:etc/nginx/conf.d/log.conf バックエンドサーバ振り分けーetc/nginx/…

Google Kubernetes Engine プラクティス

Google Kubernetes Engineについて少し調べたので備忘録として残しておきます。 Code 概要 Google Kubernetes Engineとは 実践編 Cloud SDKをインストール GKEクラスタ構築 Kubernetesでストレージを確保するためのリソース PersistentVolumeとPersistentVol…

Kubernetesの概要と実践

Kubernetesについて調べたことを備忘録としてまとめてみました。 Code Kubernetesの概要 DevOpsとマイクロサービス Dockerとコンテナ技術について Docker Composeの課題とKubernetesが解決すること Kubernetesの構成要素・リソース 基本的な利用に必要なリソ…

Docker Swarmの概要と実践

コンテナオーケストレーションシステムのDocker Swarmを触ってみました。「Docker/Kubernetesコンテナ実践入門」を読み進めておりDocker Swarmは飛ばしてKubernetesから入ろうかとも思ったのですが、Kubernetesを理解する上で、Docker Swarmの知識も役立ちそ…

「Docker/Kubernetes実践コンテナ開発入門」Docker(1~3章)備忘録

Google Kubernetes Engineについて調べてたのですが、そもそもDockerも今までなんとなく使っていたので、改めて調べて見ました。コマンドとかは自分用の備忘録です。 書籍の「Docker/Kubernetes実践コンテナ開発入門」1~3章と「入門 Docker」を参考にさせて…

Cloud SQLの概要と実践

Cloud SQLの概要を調べたのち、MySQLとSQL Serverで実践します。 概要 Cloud SQLと は 活用用途 Cloud SQLの料金体系 実践 Cloud SQL (SQL Server) インスタンス構築 Cloud SDKをインストール ローカルPCにプロキシをインストール プロキシを起動 接続確認 …

Material UIを使って株価アプリの見栄えをよくする

Material UIを使って見栄えをよくしたいと思います。 Material UIとは セットアップ Material UIを使うまえ Material UIを使ったあと Material UIとは ReactJSで人気のあるUIコンポーネントで、マテリアルデザインと呼ばれるGoogleが推奨するデザイン手法の…

React-ReduxとExpressでBigQueryからデータを取得するAPIを作る

React-ReduxとExpressでBigQueryからデータを取得するAPIを作りました。株価のアプリを作ろうと思い、その過程を記事にしている備忘録となります。 セットアップ 必要なモジュール 前提 サービスアカウントキー クライアントライブラリでAPIを作る アクショ…

Highcharts Reactで日経平均株価を表示する

Highchartsでグラフを描画するコンポーネントを作ってみました。株価のアプリを作ろうと思ってるので日経平均を表示させてみたいと思います。 完成イメージ セットアップ コンポーネントを作る コンポーネントを使う 完成イメージ 日経平均株価を表示するコ…

React-ReduxとExpressでイベント一覧を取得表示する

前回作成したExpressサーバからイベントデータを取得して、Reactで一覧表示させてみます。 www.case-k.jp バックエンドは前回作成したExpressサーバを使いフロントエンドをReactで作ります。 React:localhost:3000, Express:localhost:3001 Code セットア…

Express + Node.jsでイベント一覧を返すAPIを作る

Node.jsのフレームワークExpressで簡単にイベント一覧を返すAPIを作ります。 Expressのセットアップ イベント一覧を返すAPIを作る Expressのセットアップ まず、Node.jsとyarnコマンドをインストールします。yarnは2016年にFaceBookが公開したJavaScriptのパ…

Google Cloud 認定資格 Professional Data Engineerに合格できたので、勉強方法など書いてみました

GCP

Google Cloud認定試験のProfessional Data Engineerに合格したので勉強方法など共有できればと思います。 試験概要 勉強方法について 試験の印象 認定証 所感 試験概要 Google Cloud認定試験の一つでビックデータまわりの知識を問われます。試験の概要はこち…

Dataflowが解決するストリーミング処理の課題と基盤構築で考慮すること

Dataflowが解決するストリーミング処理の課題と基盤を作る上で考慮すべき点をいくつか資料を参考に備忘録もかねて整理してみました。 ストリーミング処理の概要 ストリーミング処理とは バッチ処理との違い ストリーミング処理の課題 データ量と変動性 遅延…

JavaScript / 配列に含まれるJSONを文字列変換しSQLで使う

配列ないのJSONをパースし文字列に変換します。変換させた文字列はSQLのWhere句で使ったりします。 import _ from 'lodash' // json in array const jsonList = [ {'key':1}, {'key':2}, {'key':3} ] // from json to array const valueLsit = _.map(jsonLis…