case-kの備忘録

日々の備忘録です。データ分析とか基盤系に興味あります。

2018-09-09から1日間の記事一覧

【GCP入門】大規模データの前処理に!DataprocでPySparkジョブを実行し、GCS内のデータを加工する

今回はDataproc クラスタ上でジョブを実行し、GCS内のデータを加工したいと思います。 本記事の目的 本記事の用途 事前準備[ Dataprocクラスタ, GCSバケット ] PySparkで簡単なジョブを実行 Pig ジョブの実行 出力ファイルの取得 GCS内のデータを活用してPyS…