Kaggleのコンテナイメージを使ったGPU環境をGoogle Compute Engineに作る

GCP Kaggle

画像系などでGPUを使いたくてGCE上でKaggleのコンテナイメージを使ったGPU環境をつくりました。以下自分用の備忘録となります。割り当てリクエスト(はじめにやること) Google Compute Engineを立てる NVIDIA ドライバが含まれる CUDAをいれるコンテナ環境…

2020-09-11

技術調査メモ：Firebase / Google Analytics ログ収集調査_20200911

GCP

FirebaseやGoogle Analyticsのログ収集を検討するにあたり調査した内容となります。 Firebase for Google Analyticsのログ収集 Firebase To BigQuery Firebase からBigQueryにリアルタイムでExport可能。Cloud Pub/SubにはExportできない。Firebase からBigQ…

2020-08-16

TerraformでCompute EngineにContainer Registryのイメージをデプロイする

terraform GCP GCE

TerraformでContainer RegistryのイメージをGCEにデプロイする方法の備忘録となります、github.com module "gce-container" { source = "terraform-google-modules/container-vm/google" version = "~> 2.0" container = { image = "gcr.io/${var.project}/<container image>"</container>…

2020-06-01

BigQueryのFlex Slotsで柔軟にスロットを購入してジョブを制御する

GCP BigQuery

BigQueryのFlex Slotsを試して見ました。バッチで重たいタスクの前にFlex Slotsを購入し、タスク完了後Flex Slotsを元に戻します。 BigQuery Flex Slotsについてやりたいこと実行コマンド Commitment Reservation Removement 環境情報権限 BQコマンドの認…

2020-05-28

FluentdのInputプラグインを作って、定期的にSQLServerからPubSubにデータを転送してみる

GCP fluentd Pub/Sub

備忘録としてFluentdのInputプラグインの作り方を残しておきます。作るプラグインについて Dockerfile 自作プラグインをつくるプラグインの実装サンプル設定ファイル起動動作確認所感作るプラグインについて SQL Serverからデータを取り出し、取得結…

2020-03-08

Cloud BuildでGKEのデプロイ作業を自動化させる

GCP Cloud Build Kubernetes

Cloud Buildを使いアプリのデプロイ作業を自動化してみました。Cloud Source RepositoriesへのpushをトリガーにDockerfileをビルド、イメージをContainer Registry に登録、登録したイメージをGKEのクラスタにデプロイさせます。 Cloud Buildの基本操作マニ…

2020-03-03

Google Kubernetes Engineにアプリをデプロイする方法

Kubernetes Docker GCP

Google Kubernetes Engine上にコンテナ化した株価アプリをデプロイしてみました。アプリの構成セットアップ GKEのクラスタを作成 DockerfileをGoogle Cloud Registoryにpushするマニフェストファイルの作成 Deploymentを定義(React+Nginx)ーreact-app-dep…

2020-03-02

Google Container Registryの概要と実践

Google Container Registry Docker GCP

GKE上にアプリをデプロイさせる上でこれまで作ったアプリのイメージをレジストリに登録します。レジストリにはGCPのGoogle Container Registryを使ってみたいと思います。概要 Container Registry とは実践 Container Registry の認証イメージをビルドす…

2020-02-12

Cloud SQLの概要と実践

Cloud SQL GCP

Cloud SQLの概要を調べたのち、MySQLとSQL Serverで実践します。概要 Cloud SQLとは活用用途 Cloud SQLの料金体系実践 Cloud SQL (SQL Server) インスタンス構築 Cloud SDKをインストールローカルPCにプロキシをインストールプロキシを起動接続確認 …

2019-11-16

Google Cloud 認定資格 Professional Data Engineerに合格できたので、勉強方法など書いてみました

GCP

Google Cloud認定試験のProfessional Data Engineerに合格したので勉強方法など共有できればと思います。試験概要勉強方法について試験の印象認定証所感試験概要 Google Cloud認定試験の一つでビックデータまわりの知識を問われます。試験の概要はこち…

2019-11-08

Dataflowが解決するストリーミング処理の課題と基盤構築で考慮すること

Dataflow GCP Pub/Sub Python

Dataflowが解決するストリーミング処理の課題と基盤を作る上で考慮すべき点をいくつか資料を参考に備忘録もかねて整理してみました。ストリーミング処理の概要ストリーミング処理とはバッチ処理との違いストリーミング処理の課題データ量と変動性遅延…

2019-11-04

Cloud Pub/Subの概要とPythonでの実践

Pub/Sub GCP Python

Cloud Pub/Subの概要とPythonでの使い方を記事にしました。簡単な概要と、Python Clientを使いトピック・サブスクリプションの作成からメッセージ送信・確認まで行います。 Code Cloud Pub/Subの概要 Cloud Pub/Subとはメッセージ配信法式 Pub/SubとDataflo…

2019-10-29

BigQueryのウィンドウ処理

BigQuery GCP

BigQueryウィンドウ処理の備忘録です。 Dataset RANK() LAG/LEAD ROW_NUMBER() Dataset console.cloud.google.com RANK() ベンダーごとの旅客数が多いレコード順にランクを付与します。 SELECT vendor_id, passenger_count, RANK() OVER (PARTITION BY vendo…

2019-10-24

Dataflowが得意なこと、苦手なこと

GCP Cloud Composer Dataflow Pub/Sub

Dataflowが得意なこと、苦手なことを考えてみました。得意なことバッチ/ストリーミング処理(特にストリーミング処理) サイズの大きいデータを扱うことサーバ費用を抑えること苦手なこと逐次処理複雑なパイプライン制御(役割が異なる) 得意なことバッ…

2019-10-23

AutoMLでDSの役割がどう変わりそうなのか調べてみた

GCP AutoML

著名な方の意見を参考にAutoMLでDSの役割がどう変わりそうなのか調べてみました。 AutoMLとは実施手順 STEP 1 STEP 2 STEP 3 メリット推定精度が高い簡単でGCP上で完結する簡単な分析も可能デメリット推定精度が安定しない費用が高く学習頻度が多い場…

2019-10-16

Cloud Composerを使いDataflowのパイプライン制御をする方法

GCP Dataflow Cloud Composer Python

Cloud ComposerでDataflowテンプレートを順次キックしていく逐次処理を行います。順番に処理が行われたことを確認するために前のDataflowのテンプレート実行し作られたファイルを参照する処理にしました。 code Composer環境を作る Dataflowのテンプレートを…

2019-10-13

Dataflowパイプライン処理の備忘録：Python

Dataflow Python GCP

Dataflowで使うパイプライン処理の備忘録です。随時更新できればと思います。 options udf branch group by Filter beam.apache.org options # -*- coding: utf-8 -*- import apache_beam as beam # プロジェクトID PROJECTID = 'project id' # オプション設…

2019-10-13

Dataflowカスタムパラメータの追加方法：Python

GCP Dataflow Cloud Functions Python

Dataflowテンプレートでカスタムパラメータを追加します。パラメータを静的に定義する方法とテンプレート実行時に動的にパラメータを指定する方法を紹介します。gclodコマンドで実行しますが、Cloud Functonsからテンプレートをキックする方法は以下の記事を…

2019-10-11

Cloud Schedulerのパイプライン制御における活用用途について

Cloud Composer Cloud Scheduler GCP Cloud Functions

Cloud Schedulerとはどのような時に使うか？ Cloud Composerとの違いパイプライン制御におけるトリガーとしての役割運用フローを考慮したトリガー選定 Cloud Schedulerとは GCPが管理するフルマネージドでサーバレスなクーロンサービスです。どのような…

2019-10-10

Cloud Composerの活用事例と料金体系について

Cloud Composer GCP

Cloud Composerの活用事例と料金体系について調べてみました。 Cloud Compoer とは？ Cloud Compoer活用事例メルペイメルカリ DeNA JapanTaxi エウレカリブセンス SmartNews BrainPad 料金体系について所感 Cloud Compoer とは？ Cloud ComposerはGCPが…

2019-10-10

Dataflowテンプレート実行方法：Python

Dataflow Python GCP

GAEなどでDataflowのテンプレートの実行方法です。パラメータは以下のようにして渡します code Dataflowのテンプレートの実行 code github.com Dataflowのテンプレートの実行 "parameters": { "input": "gs://{}/sample2.csv".format(PROJECTID), "output": …

2019-10-08

Cloud FunctionsでDataflowテンプレートをキックさせる方法：Python

Dataflow GCP Python Cloud Functions

Cloud FunctionsでGCSのバケットに置かれたファイルを検知し、Dataflowのテンプレートをキックします。パラメータとしてCloud Functionsでファイル名を取得し、Dataflowのテンプレートに引数として渡します。GCSから加工しGBQに取り込むケースなどに使います…

2019-10-08

BigQueryマスタ更新のベストプラクティスと見解

BigQuery GCP

こちらの記事でベストプラクティスは以下と紹介されており、実運用を考慮した際、現実的には「Data Loadingを利用して追加」する方法が良いようです。この方法は1テーブルにレコードを追加し、最新のTIME STAMPを参照するVIEWテーブルを作り参照させる方法…

2019-10-07

Dataflowテンプレート作成方法(Python)

Dataflow GCP Python

Pythonベースで記述したDataflowのコードをテンプレート化し、実行してみます。テンプレートを作成するためには以下のコードを追記するだけです。コードを実行するとGCS内にテンプレートが作られるので、作成したテンプレートを実行してみます。 gcloud_opti…

2019-10-07

DataflowでPython3系を使って良いのか検討してみた

Dataflow GCP Python

DataflowでPython3系を使って良さそうか調べてみました。 Python3系を使いたい理由 DataflowのPython3系のサポート状況について Apach Beamのissueについて動作確認ストリーミング処理は？結論(個人的な) Python3系を使いたい理由 DataflowはETLツールな…

2019-10-07

Cloud Functionsで検知したファイルをBigQueryに書き込む

GCP GCS BigQuery Python Cloud Functions

Cloud FunctionsでバケットにアップしたファイルをBigQueryに書き込む処理をします。 code Cloud Functionsとは制限事項 Cloud Functionsを試す事前準備動作確認 code github.com Cloud Functionsとはイベントを検知し処理を実行するトリガーの役割があ…

2019-09-27

OAuth2.0のGCPでのシーケンスや推奨方法について

GCP OAuth2.0

OAuth2.0のGCPでのシーケンスや推奨方法を調べてみました。OAuth2.0の簡単な概要からGCPで採用している認証方法とOAuth2.0で許可証を発行する場合のシーケンスとサンプルとなります。 OAuth2.0とは？ GCPで採用している認証処理 GCPのOAuth2.0のシーケンス …

2019-09-18

Jupyter NotebookでBigQueryを使う方法

BigQuery GCP

JupyterからBigQueryを使うことがよくあるので備忘録として残しておきます。 PythonクライアントライブラリをインストールすることでJupyterから実行できます。 # auth gcloud auth application-default login # install python client pip install --upgrad…

2019-09-16

Bigtableの特性とスキーマ設計について

Bigtable GCP

Bigtableについて調べてみました。 Bigtableとは他のDBと比較 Bigtableのアーキテクチャスキーマ設計 KEYの作り方カラムファミリー所感 Bigtableとは GCPプロダクトのNoSQLデータベースで大規模データをミリセックレベルの低レイテンシーで処理したい場…

2019-09-06

Dataflowを検証「Python2系と3系」

Dataflow GCP

GCPのサーバレスETLツールであるDataflowの検証をしてみました。前に使った時はPython２系しか使えなかったんですが3系のサポートも始めたらしいので期待です。 Dataflowとは Python 2系で実行 Python 3系で実行 Dataflowとは DataFlowはGCPのETLツールでデ…

case-kの備忘録

日々の備忘録です。データ分析とか基盤系に興味あります。

GCP

Kaggleのコンテナイメージを使ったGPU環境をGoogle Compute Engineに作る

技術調査メモ：Firebase / Google Analytics ログ収集調査_20200911

TerraformでCompute EngineにContainer Registryのイメージをデプロイする

BigQueryのFlex Slotsで柔軟にスロットを購入してジョブを制御する

FluentdのInputプラグインを作って、定期的にSQLServerからPubSubにデータを転送してみる

Cloud BuildでGKEのデプロイ作業を自動化させる

Google Kubernetes Engineにアプリをデプロイする方法

Google Container Registryの概要と実践

Cloud SQLの概要と実践

Google Cloud 認定資格 Professional Data Engineerに合格できたので、勉強方法など書いてみました

Dataflowが解決するストリーミング処理の課題と基盤構築で考慮すること

Cloud Pub/Subの概要とPythonでの実践

BigQueryのウィンドウ処理

Dataflowが得意なこと、苦手なこと

AutoMLでDSの役割がどう変わりそうなのか調べてみた

Cloud Composerを使いDataflowのパイプライン制御をする方法

Dataflowパイプライン処理の備忘録：Python

Dataflowカスタムパラメータの追加方法：Python

Cloud Schedulerのパイプライン制御における活用用途について

Cloud Composerの活用事例と料金体系について

Dataflowテンプレート実行方法：Python

Cloud FunctionsでDataflowテンプレートをキックさせる方法：Python

BigQueryマスタ更新のベストプラクティスと見解

Dataflowテンプレート作成方法(Python)

DataflowでPython3系を使って良いのか検討してみた

Cloud Functionsで検知したファイルをBigQueryに書き込む

OAuth2.0のGCPでのシーケンスや推奨方法について

Jupyter NotebookでBigQueryを使う方法

Bigtableの特性とスキーマ設計について

Dataflowを検証「Python2系と3系」