BIgQueryでカンマ区切りのデータを分割する方法をご紹介します。データはここに置いておきます。 github.com サンプルの中身はカンマ区切りのデータとなっています。 SQLを実行して、以下のようにカンマ区切りのデータ項目を分割することが本記事の目的です…
この記事では説明変数3つ以上の偏相関係数算出方法をPythonで行います。実際のコードはこちらにあげておきます。 # partial_correlation_coefficient.ipynb # Partial_correlation.csv github.com 偏相関係数とは 偏相関係数とは変数間の交互作用を取り除い…
データ分析する場合BigQueryで集計し、集計結果をGCSに出力、Jupyterで分析することが多いかと思います。 集計結果が大きいとそのままCloud Storageに出力することはできません。集計結果をBigQueryのテーブルに出力し、Cloud Storageへエクスポートを選ぶと…
時系列データでタイムスタンプがJSTでないことはまあまああるかと思います。BigQueryでJSTに変換する方法を記事にしました。 UTC - > JSTとEST -> JST変換をします。データは以下の形式ならそのままクエリ実行できると思います。 「2018-05-12 21:02:20」 Bi…
JupyterでGCSにあるファイルを読み込み、DataFrameとして扱う方法を紹介します。サーバにいちいちデータを落としたくない場合やディスク容量がない場合に使えるかもしれません。いつも通り完全に備忘録です。 #ライブラリ $ pip install google-cloud-storag…
ただの備忘録です。業務でタブ区切りの8万のTSVファイル(テキスト)をBigQueryに全件ロードする方法を探してた際のtipsです。ログデータを扱う場合、タブ区切りになっていることがあるかと思います。bqコマンド使ったロード方法やサポートされているデータ形…
備忘録です。流れは以下のようになります。 Docker install Docker Image Docker Pull Docker Container Create Image from Container Commit Created Image Docker Build Create Web Server Dockerfile Docker Push 個人的にDockerはGit扱いに非常に類似し…
今回はGCPが提供するGoogle BIgQueryに関する記事を書きます。データ読み込み・出力方法やクエリ検索まで備忘録も兼ねて記事を書きます。 この記事の目的 BigQueryとは BigQueryのメリット・デメリット メリット デメリット クエリ備忘録 集計関数 条件付き…
今回はPythonで機械学習を行うために必要な環境構築の一連の流れを記事にしました。Pythonのバージョン管理を行うpyenvコマンドを活用し、機械学習を行うパッケージ「Anaconda」のインストールと分析可視化環境「Jupyter Notebook」を構築してみます。 本記…
今回は、GCPの可視化分析ツールDatalab [Goolge Cloud Datalab] の環境構築に関する記事を書いてみました。 Dataproc [Goolge Cloud Dataproc]クラスタ上でDatalabを構築するメリットを実際のユースケースも考慮して書いてみます。 本記事の目的 Datalabとは…