case-kの備忘録

日々の備忘録です。データ分析とか基盤系に興味あります。

【GCP入門】大規模データの前処理に!DataprocでPySparkジョブを実行し、GCS内のデータを加工する

今回はDataproc クラスタ上でジョブを実行し、GCS内のデータを加工したいと思います。 本記事の目的 本記事の用途 事前準備[ Dataprocクラスタ, GCSバケット ] PySparkで簡単なジョブを実行 Pig ジョブの実行 出力ファイルの取得 GCS内のデータを活用してPyS…

【GCP入門】Google Cloud Dataprocで環境構築してみる

今回はGoogle Cloud Dataprocで環境構築をしてみました。Dataproc入門者を対象に記事を書きたいと思います。 本記事の目的 Google Cloud Dataprocとは Dataprocメリット・デメリット クラスタ構築 CLIでクラスタを管理 本記事の目的 ・Google Cloud Dataproc…

モデルのパラメータ探索手法、「グリッドサーチ」ってなんだ

今回はモデルの性能を向上させるための手法、グリッドサーチの記事を書いてみました。 本記事の目的 グリッドサーチとは 単純なグリッドサーチ 単純なグリッドサーチの問題点 単純なグリッドサーチの解決策について 交差検証を用いたグリッドサーチ 本記事の…

モデルの汎化性を評価する「交差検証」について、Pythonで学んでみた

今回はモデルの汎化性を評価するための統計手法である交差検証について記事を書いてみました。 本記事の目的 交差検証とは 交差検証のメリット・デメリット k分割交差検証(k-fold cross-validation)とは 層化k分割交差検証とは 活用用途 本記事の目的 ・交差…

ランダムフォレストで癌の良性・悪性を分類予測してみた

ランダムフォレストで癌の良性・悪性を分類分類予測してみました。以前にChainerで同様の癌の分類問題を行ったので、比較してみたいと思います。 ランダムフォレストとは ランダムフォレストのメリット・デメリット メリット デメリット 実装編 ランダムフォ…

Pythonで学ぶポアソン分布とは

代表的確率分布の一つである、ポアソン分布について記事を書きました。ポアソン分布の概要や実際の例題を解きながら理解を深めていきたいと思います。 ポアソン分布とは 例題 二項分布とポアソン分布の関係 ポアソン分布とは 「単位時間あたりに平均 λ 回起…

Chainerで癌の良性・悪性を分類予測してみた

Chainerで癌の良性・悪性の分類予測を試してみたいと思います。 Chainerとは Chainerのメリット Chainer構造理解 実装編 Chainerで計算できるデータ形式に変換 Chainerで使用するデータセットの形式 モデルの定義 モデルの定義 Optimizerの定義 Iteratorの定…

Pythonで学ぶ標準化とは

異なるグループ間の比較方法として「標準化」と呼ばれる統計的手法があります。同じテストの結果を比較することはは容易ですが、異なる科目のテスト結果の比較は点数だけでは判断できません。このような場合「標準化」は有益です。今回は「標準化」の関連用…

Pythonで学ぶ二項分布と正規分布の関係性

代表的な確率分布として正規分布や二項分布、ポアソン分布があります。本記事では二項分布と正規分布の関係性について、実際にPythonで例題を解きながら理解していきたいと思います。二項分布については以下よりご確認ください。 case-k.hatenablog.com この…

Pythonで学ぶ二項分布とは

代表的確率分布の1つである二項分布について、実際にPythonで例題を解きながら理解したいと思います。 この記事の目的 二項分布とは ベルヌーイ試行とは ベルヌーイ分布に従う場合の確率・期待値・分散 活用用途 例題 例題 (1) 例題 (2) 例題 (3) この記事の…