case-kの備忘録

日々の備忘録です。データ分析とか基盤系に興味あります。

2019-09-25から1日間の記事一覧

DataprocでPySparkの分散並列処理を行う方法

Dataprocの備忘録です。DataprocでGCSに配置したcsvファイルをDataFrameで読み込み分散並列処理する記事です。 簡単にDataprocを紹介 事前準備 PySparkを実行 所感 簡単にDataprocを紹介 DataprocはGCP上でSparkやHadoopを実行できる環境を提供します。今回…