Apache Beam Python JDBCを使いDataflowを動かすには、ジョブの実行環境からもコネクションを張れる必要があった

Python Dataflow

Apache BeamのPython jdbcコネクタを使いDataflowでジョブを実行してみました。Cloud SQLとDataflowを同一サブネット内に作りプライベートIPで接続を試みました。検証したところジョブ実行時に実行環境からPostgresにコネクションを張ろうとしていることがわ…

2022-01-04

Apache Beam Python PostgreSQL To BigQuery検証

Dataflow Python

Apache BeamのPythonでPostgreSQLからBigQueryに書き込めるか検証。検証したところJDBCをつかいPostgreSQLからBigQueryに書きこむことはできた。ただし、クエリの上書きはできなかった。すべて「SELECT * FROM TABLE」で実行されてします。以下の条件に該当…

2019-11-08

Dataflowが解決するストリーミング処理の課題と基盤構築で考慮すること

Dataflow GCP Pub/Sub Python

Dataflowが解決するストリーミング処理の課題と基盤を作る上で考慮すべき点をいくつか資料を参考に備忘録もかねて整理してみました。ストリーミング処理の概要ストリーミング処理とはバッチ処理との違いストリーミング処理の課題データ量と変動性遅延…

2019-11-04

Cloud Pub/Subの概要とPythonでの実践

Pub/Sub GCP Python

Cloud Pub/Subの概要とPythonでの使い方を記事にしました。簡単な概要と、Python Clientを使いトピック・サブスクリプションの作成からメッセージ送信・確認まで行います。 Code Cloud Pub/Subの概要 Cloud Pub/Subとはメッセージ配信法式 Pub/SubとDataflo…

2019-10-28

Python Client GBQ & GCS

BigQuery GCS Python

Code library Read From GBQ To Local Upload From Local To GCS Read From GCS Load From GCS To GBQ Code # python_client_gbq_gcs.py github.com library !gcloud auth application-default login !pip install --upgrade google-cloud-bigquery !pip ins…

2019-10-17

Dataflow Google BigQuery I/O connector：Python

Dataflow BigQuery Python GCS

Dataflowを使ってBigQueryからBigQueryに書き込む処理とCloud StorageからBigQueryに書き込む処理をします。 Code options GBQ to GBQ GCS to GBQ beam.apache.org Code github.com options # -*- coding: utf-8 -*- import apache_beam as beam from apache…

2019-10-16

Cloud Composerを使いDataflowのパイプライン制御をする方法

GCP Dataflow Cloud Composer Python

Cloud ComposerでDataflowテンプレートを順次キックしていく逐次処理を行います。順番に処理が行われたことを確認するために前のDataflowのテンプレート実行し作られたファイルを参照する処理にしました。 code Composer環境を作る Dataflowのテンプレートを…

2019-10-13

Dataflowパイプライン処理の備忘録：Python

Dataflow Python GCP

Dataflowで使うパイプライン処理の備忘録です。随時更新できればと思います。 options udf branch group by Filter beam.apache.org options # -*- coding: utf-8 -*- import apache_beam as beam # プロジェクトID PROJECTID = 'project id' # オプション設…

2019-10-13

Dataflowカスタムパラメータの追加方法：Python

GCP Dataflow Cloud Functions Python

Dataflowテンプレートでカスタムパラメータを追加します。パラメータを静的に定義する方法とテンプレート実行時に動的にパラメータを指定する方法を紹介します。gclodコマンドで実行しますが、Cloud Functonsからテンプレートをキックする方法は以下の記事を…

2019-10-10

Dataflowテンプレート実行方法：Python

Dataflow Python GCP

GAEなどでDataflowのテンプレートの実行方法です。パラメータは以下のようにして渡します code Dataflowのテンプレートの実行 code github.com Dataflowのテンプレートの実行 "parameters": { "input": "gs://{}/sample2.csv".format(PROJECTID), "output": …

2019-10-08

Cloud FunctionsでDataflowテンプレートをキックさせる方法：Python

Dataflow GCP Python Cloud Functions

Cloud FunctionsでGCSのバケットに置かれたファイルを検知し、Dataflowのテンプレートをキックします。パラメータとしてCloud Functionsでファイル名を取得し、Dataflowのテンプレートに引数として渡します。GCSから加工しGBQに取り込むケースなどに使います…

2019-10-07

Dataflowテンプレート作成方法(Python)

Dataflow GCP Python

Pythonベースで記述したDataflowのコードをテンプレート化し、実行してみます。テンプレートを作成するためには以下のコードを追記するだけです。コードを実行するとGCS内にテンプレートが作られるので、作成したテンプレートを実行してみます。 gcloud_opti…

2019-10-07

DataflowでPython3系を使って良いのか検討してみた

Dataflow GCP Python

DataflowでPython3系を使って良さそうか調べてみました。 Python3系を使いたい理由 DataflowのPython3系のサポート状況について Apach Beamのissueについて動作確認ストリーミング処理は？結論(個人的な) Python3系を使いたい理由 DataflowはETLツールな…

2019-10-07

Cloud Functionsで検知したファイルをBigQueryに書き込む

GCP GCS BigQuery Python Cloud Functions

Cloud FunctionsでバケットにアップしたファイルをBigQueryに書き込む処理をします。 code Cloud Functionsとは制限事項 Cloud Functionsを試す事前準備動作確認 code github.com Cloud Functionsとはイベントを検知し処理を実行するトリガーの役割があ…

2019-09-27

Selenium+Chrome Driverで日経平均株価をスクレイピング

Python Scraping Selenium Develop Application

株価のアプリを作ろうかと考えてます。日経株価をBeautiful Soupでスクレイピングしようと思ったのですが、日経平均株価のサイトは年月日を指定することで数値が可変するサイトでしたのでSerenimでスクレイピングしました。Serenimはブラウザの操作が可能な…

2019-09-25

DataprocでPySparkの分散並列処理を行う方法

Dataproc GCS Python PySpark

Dataprocの備忘録です。DataprocでGCSに配置したcsvファイルをDataFrameで読み込み分散並列処理する記事です。簡単にDataprocを紹介事前準備 PySparkを実行所感簡単にDataprocを紹介 DataprocはGCP上でSparkやHadoopを実行できる環境を提供します。今回…

2019-04-14

Pythonで多変量解析、3変数以上の偏相関係数を算出してみた

Python 統計学

この記事では説明変数3つ以上の偏相関係数算出方法をPythonで行います。実際のコードはこちらにあげておきます。 # partial_correlation_coefficient.ipynb # Partial_correlation.csv github.com 偏相関係数とは偏相関係数とは変数間の交互作用を取り除い…

2019-02-17

GCSのファイルをDataFrameで扱う方法

GCP GCS Python Jupyter

JupyterでGCSにあるファイルを読み込み、DataFrameとして扱う方法を紹介します。サーバにいちいちデータを落としたくない場合やディスク容量がない場合に使えるかもしれません。いつも通り完全に備忘録です。 #ライブラリ $ pip install google-cloud-storag…

2018-09-22

pyenvでPython分析環境を構築してみた「Anaconda & Jupyter Notebook」

Python Jupyter

今回はPythonで機械学習を行うために必要な環境構築の一連の流れを記事にしました。Pythonのバージョン管理を行うpyenvコマンドを活用し、機械学習を行うパッケージ「Anaconda」のインストールと分析可視化環境「Jupyter Notebook」を構築してみます。本記…

2018-09-21

【GCP入門】大規模データの前処理に！Dataprocクラスタ上で、Datalabを活用したデータ分析環境構築

GCP Dataproc Python Datalab Jupyter

今回は、GCPの可視化分析ツールDatalab [Goolge Cloud Datalab] の環境構築に関する記事を書いてみました。 Dataproc [Goolge Cloud Dataproc]クラスタ上でDatalabを構築するメリットを実際のユースケースも考慮して書いてみます。本記事の目的 Datalabとは…

2018-09-09

【GCP入門】大規模データの前処理に！DataprocでPySparkジョブを実行し、GCS内のデータを加工する

Python GCP Dataproc PySpark

今回はDataproc クラスタ上でジョブを実行し、GCS内のデータを加工したいと思います。本記事の目的本記事の用途事前準備[ Dataprocクラスタ, GCSバケット ] PySparkで簡単なジョブを実行 Pig ジョブの実行出力ファイルの取得 GCS内のデータを活用してPyS…

2018-09-03

モデルのパラメータ探索手法、「グリッドサーチ」ってなんだ

Python ML

今回はモデルの性能を向上させるための手法、グリッドサーチの記事を書いてみました。本記事の目的グリッドサーチとは単純なグリッドサーチ単純なグリッドサーチの問題点単純なグリッドサーチの解決策について交差検証を用いたグリッドサーチ本記事の…

2018-09-01

モデルの汎化性を評価する「交差検証」について、Pythonで学んでみた

Python ML

今回はモデルの汎化性を評価するための統計手法である交差検証について記事を書いてみました。本記事の目的交差検証とは交差検証のメリット・デメリット k分割交差検証(k-fold cross-validation)とは層化k分割交差検証とは活用用途本記事の目的・交差…

2018-08-30

ランダムフォレストで癌の良性・悪性を分類予測してみた

Python ML

ランダムフォレストで癌の良性・悪性を分類分類予測してみました。以前にChainerで同様の癌の分類問題を行ったので、比較してみたいと思います。ランダムフォレストとはランダムフォレストのメリット・デメリットメリットデメリット実装編ランダムフォ…

2018-08-27

Pythonで学ぶポアソン分布とは

Python 統計学

代表的確率分布の一つである、ポアソン分布について記事を書きました。ポアソン分布の概要や実際の例題を解きながら理解を深めていきたいと思います。ポアソン分布とは例題二項分布とポアソン分布の関係ポアソン分布とは「単位時間あたりに平均 λ 回起…

2018-08-26

Chainerで癌の良性・悪性を分類予測してみた

Python DNN ML

Chainerで癌の良性・悪性の分類予測を試してみたいと思います。 Chainerとは Chainerのメリット Chainer構造理解実装編 Chainerで計算できるデータ形式に変換 Chainerで使用するデータセットの形式モデルの定義モデルの定義 Optimizerの定義 Iteratorの定…