case-kの備忘録

備忘録です。

備忘録 Docker&Kubernetes良記事

Dockerを理解する上で個人的に参考にさせて頂いた記事を自分用にまとめました。いい記事があれば随時追記していきたいと思ってます。 Docker 概要の理解であればこれだけ見ればいい気がします。とってもわかりやすいです。 y-ohgi.comDockerfileを作る際参考…

BigQueryでカンマ区切りのデータを分割してみた

BIgQueryでカンマ区切りのデータを分割する方法をご紹介します。データはここに置いておきます。 github.comサンプルの中身はカンマ区切りのデータとなっています。 SQLを実行して、以下のようにカンマ区切りのデータ項目を分割することが本記事の目的です。…

Pythonで多変量解析、3変数以上の偏相関係数を算出してみた

この記事では説明変数3つ以上の偏相関係数算出方法をPythonで行います。実際のコードはこちらにあげておきます。 github.com 偏相関係数とは 偏相関係数とは変数間の交互作用を取り除いた純粋な相関係数と言えます。 多変量である場合、個々の説明変数が互い…

BigQueryでサイズの大きいデータをGCSに出力してみた

データ分析する場合BigQueryで集計し、集計結果をGCSに出力、Jupyterで分析することが多いかと思います。 集計結果が大きいとそのままCloud Storageに出力することはできません。集計結果をBigQueryのテーブルに出力し、Cloud Storageへエクスポートを選ぶと…

BigQueryで標準時(UTC・EST)をJSTに変換してみた

時系列データでタイムスタンプがJSTでないことはまあまああるかと思います。BigQueryでJSTに変換する方法を記事にしました。 UTC - > JSTとEST -> JST変換をします。データは以下の形式ならそのままクエリ実行できると思います。 「2018-05-12 21:02:20」 Bi…

GCS上のファイルをDataFrameで読み込んでみた。

JupyterでGCSにあるファイルを読み込み、DataFrameとして扱う方法を紹介します。サーバにいちいちデータを落としたくない場合やディスク容量がない場合に使えるかもしれません。いつも通り完全に備忘録です。 from google.cloud import storage as gcs bucke…

BigQueryにタブ区切りのTSVファイル[テキスト]を全件ロードしてみた

ただの備忘録です。業務でタブ区切りの8万のTSVファイル(テキスト)をBigQueryに全件ロードする方法を探してた際のtipsです。ログデータを扱う場合、タブ区切りになっていることがあるかと思います。bqコマンド使ったロード方法やサポートされているデータ形…