case-kの備忘録

備忘録です。

BigQueryでサイズの大きいデータをGCSに出力する方法

データ分析する場合BigQueryで集計し、集計結果をGCSに出力、Jupyterで分析することが多いかと思います。 集計結果が大きいとそのままCloud Storageに出力することはできません。集計結果をBigQueryのテーブルに出力し、Cloud Storageへエクスポートを選ぶと…

BigQueryで標準時(UTC・EST)をJSTに変換する

時系列データでタイムスタンプがJSTでないことはまあまああるかと思います。BigQueryでJSTに変換する方法を記事にしました。 UTC - > JSTとEST -> JST変換をします。データは以下の形式ならそのままクエリ実行できると思います。 「2018-05-12 21:02:20」 GB…

JupyterでGCSファイルを読み込む方法

JupyterでGCSにあるファイルを読み込み、DataFrameとして扱う方法を紹介します。サーバにいちいちデータを落としたくない場合やディスク容量がない場合に使えるかもしれません。いつも通り完全に備忘録です。 from google.cloud import storage as gcs bucke…

BigQueryにタブ区切りのTSVファイル[テキスト]を全件ロードする方法

ただの備忘録です。業務でタブ区切りの8万のTSVファイル(テキスト)をBigQueryに全件ロードする方法を探してた際のtipsです。ログデータを扱う場合、タブ区切りになっていることがあるかと思います。bqコマンド使ったロード方法やサポートされているデータ形…

【Git入門】GIt Hub アカウント登録 & 認証エラー対応

Git

今回はGit Hubアカウント作成方法から、作成したプログラムやドキュメントををGItにPushするための一連の流れを記事にしてみました。 また、Gitあるあるな認証エラーの対応も備忘録も兼ねてまとめてみました。 本記事の目的 アカウント作成 認証作業 リポジ…

【Docker入門】Docker環境構築入門してみた

Dockerを実際に触ったことがなかったので、Dockerの概要や実際の扱い方について備忘録も兼ねて記事にしてみました。 本記事の目的 Dockerとは Docker誕生背景 仮想環境構築 [Vagrant/VirtualBox] install Vagrant & VirtualBox vagrant init vagrant up vagr…

【GCP入門】Google BigQuery データセット作成からデータ抽出までハンズオン形式で行います

今回はGCPが提供するGoogle BIgQueryに関する記事を書きます。データ読み込み・出力方法やクエリ検索まで備忘録も兼ねて記事を書きます。 この記事の目的 BigQueryとは BigQueryのメリット・デメリット メリット デメリット クエリ備忘録 集計関数 条件付き…