case-kの備忘録

備忘録です。

Dataflowを検証していく。まずはPython2系と3系

GCPのサーバレスETLツールであるDataflowの検証をしてみました。 前に使った時はPython2系しか使えなかったんですが3系のサポートも始めたらしいので期待です。(注) この記事ではPython2系と3系の環境を作りましたが、Python 3系はうまく走りませんでした。…

BigQueryのStandard SQLで四分位計算してみた

GBQのStandard SQLでの四分位計算方法を備忘録として残しておきます。 これまで中央値などの計算はGBQのレガシーSQLを使っていたのですが、制限等何かと不便でしたので調べてみました。 SELECT day , min, percentiles[offset(25)] AS per_25, percentiles[o…

BQコマンドでファイル出力

BigQueryの集計結果をサーバで扱いたい場合、以下の方法が考えられます。 gsutil bq 出力結果が大きくならない場合、BQコマンドの方が楽なので自分用のメモとして残しておきます。 (※ レコード数の上限を指定するのが個人的には?なところだったりします) bq…

分析基盤をBigQueryに移行させた時の知見

PostgreSQLベースのBIツールの参照DBをBigQueryに移行したことで、 パフォーマンスが大きく改善(30分以上 -> 10秒)したので、その時の知見をメモとして残しておきたいと思います。 経緯 BigQueryの選定理由 1. 現行がRDBベース 2. 集計結果のデータサイズが…

Babel

最近Reactを学び始めたのでビルド系のツールを触り始めました。 Babelを使ってみたので備忘録がてら記事にしました。 Babelとは BabelはJavaScriptの仕様の差異を吸収してくるモジュールです。 Babelを使うことで現在一般的に使われているJavaScriptに変換す…

入門記事:GCE (Google Compute Engine) で作るJupyter分析環境

Google Compute Engine(GCE)にJupyterで必要最低限の分析環境を作る入門者向けの記事です。 インスタンス構築(GCE) IP制限の設定 Dockerインストール Jupyter環境構築(Docker) Jupyter環境構築(Dockerを使わない) インスタンス構築(GCE) GCPコンソール画面の…

Kaggle備忘録 地震コンペ

Kaggleの地震コンペに参戦しました。結果は銅メダル圏内のPublic順位346位からPrivate順位885位落ち、メダルは取れませんでした。orz..... (Publicで銅メダル圏に入った時はテンション上がりました。はい。) ソリューションでもなんでもないんですが、備忘録…