case-kの備忘録

備忘録です。GCPやデータ分析系のことを呟きます。

環境構築

分析基盤をPostgreSQLからBigQueryに移行させた時の知見

PostgreSQLベースのBIツールの参照DBをBigQueryに移行したことで、 パフォーマンスが大きく改善(30分以上 -> 10秒)したので、その時の知見をメモとして残しておきたいと思います。 経緯 BigQueryの選定理由 1. 現行がRDBベース 2. 集計結果のデータサイズが…

入門記事:GCE (Google Compute Engine) で作るJupyter分析環境

Google Compute Engine(GCE)にJupyterで必要最低限の分析環境を作る入門者向けの記事です。 インスタンス構築(GCE) IP制限の設定 Dockerインストール Jupyter環境構築(Docker) Jupyter環境構築(Dockerを使わない) インスタンス構築(GCE) GCPコンソール画面の…

Docker環境構築入門してみた

Dockerを実際に触ったことがなかったので、Dockerの概要や実際の扱い方について備忘録も兼ねて記事にしてみました。追記: 本記事ではVM環境をMAC上に構築し、VM環境の上でDockerを使いましたが、VM環境を構築する方法だと、構築にリソースを使ってしまうた…

pyenvでPython分析環境を構築してみた「Anaconda & Jupyter Notebook」

今回はPythonで機械学習を行うために必要な環境構築の一連の流れを記事にしました。Pythonのバージョン管理を行うpyenvコマンドを活用し、機械学習を行うパッケージ「Anaconda」のインストールと分析可視化環境「Jupyter Notebook」を構築してみます。 本記…

【GCP入門】大規模データの前処理に!Dataprocクラスタ上で、Datalabを活用したデータ分析環境構築

今回は、GCPの可視化分析ツールDatalab [Goolge Cloud Datalab] の環境構築に関する記事を書いてみました。 Dataproc [Goolge Cloud Dataproc]クラスタ上でDatalabを構築するメリットを実際のユースケースも考慮して書いてみます。 本記事の目的 Datalabとは…

【GCP入門】大規模データの前処理に!DataprocでPySparkジョブを実行し、GCS内のデータを加工する

今回はDataproc クラスタ上でジョブを実行し、GCS内のデータを加工したいと思います。 本記事の目的 本記事の用途 事前準備[ Dataprocクラスタ, GCSバケット ] PySparkで簡単なジョブを実行 Pig ジョブの実行 出力ファイルの取得 GCS内のデータを活用してPyS…

【GCP入門】Google Cloud Dataprocで環境構築してみる

今回はGoogle Cloud Dataprocで環境構築をしてみました。Dataproc入門者を対象に記事を書きたいと思います。 本記事の目的 Google Cloud Dataprocとは Dataprocメリット・デメリット クラスタ構築 CLIでクラスタを管理 本記事の目的 ・Google Cloud Dataproc…

【環境構築入門】分散処理から理解する、並列分散処理の誕生背景

今更ではあるのですが、分散処理について記事を書いてみました。大規模データを扱うために、HadoopやSparkといった並列分散処理に特化したミドルウェアがありますが、いまいち誕生背景など理解できてなかったので記事にしました。 分散処理とは CPUの基礎知…