pyenvでPython分析環境を構築してみた「Anaconda & Jupyter Notebook」

Python Jupyter

今回はPythonで機械学習を行うために必要な環境構築の一連の流れを記事にしました。Pythonのバージョン管理を行うpyenvコマンドを活用し、機械学習を行うパッケージ「Anaconda」のインストールと分析可視化環境「Jupyter Notebook」を構築してみます。本記…

2018-09-21

【GCP入門】大規模データの前処理に！Dataprocクラスタ上で、Datalabを活用したデータ分析環境構築

GCP Dataproc Python Datalab Jupyter

今回は、GCPの可視化分析ツールDatalab [Goolge Cloud Datalab] の環境構築に関する記事を書いてみました。 Dataproc [Goolge Cloud Dataproc]クラスタ上でDatalabを構築するメリットを実際のユースケースも考慮して書いてみます。本記事の目的 Datalabとは…

2018-09-09

【GCP入門】大規模データの前処理に！DataprocでPySparkジョブを実行し、GCS内のデータを加工する

Python GCP Dataproc PySpark

今回はDataproc クラスタ上でジョブを実行し、GCS内のデータを加工したいと思います。本記事の目的本記事の用途事前準備[ Dataprocクラスタ, GCSバケット ] PySparkで簡単なジョブを実行 Pig ジョブの実行出力ファイルの取得 GCS内のデータを活用してPyS…

2018-09-06

【GCP入門】Google Cloud Dataprocで環境構築してみる

GCP Hadoop Dataproc PySpark

今回はGoogle Cloud Dataprocで環境構築をしてみました。Dataproc入門者を対象に記事を書きたいと思います。本記事の目的 Google Cloud Dataprocとは Dataprocメリット・デメリットクラスタ構築 CLIでクラスタを管理本記事の目的・Google Cloud Dataproc…

2018-09-03

モデルのパラメータ探索手法、「グリッドサーチ」ってなんだ

Python ML

今回はモデルの性能を向上させるための手法、グリッドサーチの記事を書いてみました。本記事の目的グリッドサーチとは単純なグリッドサーチ単純なグリッドサーチの問題点単純なグリッドサーチの解決策について交差検証を用いたグリッドサーチ本記事の…

2018-09-01

モデルの汎化性を評価する「交差検証」について、Pythonで学んでみた

Python ML

今回はモデルの汎化性を評価するための統計手法である交差検証について記事を書いてみました。本記事の目的交差検証とは交差検証のメリット・デメリット k分割交差検証(k-fold cross-validation)とは層化k分割交差検証とは活用用途本記事の目的・交差…

2018-08-30

ランダムフォレストで癌の良性・悪性を分類予測してみた

Python ML

ランダムフォレストで癌の良性・悪性を分類分類予測してみました。以前にChainerで同様の癌の分類問題を行ったので、比較してみたいと思います。ランダムフォレストとはランダムフォレストのメリット・デメリットメリットデメリット実装編ランダムフォ…

2018-08-27

Pythonで学ぶポアソン分布とは

Python 統計学

代表的確率分布の一つである、ポアソン分布について記事を書きました。ポアソン分布の概要や実際の例題を解きながら理解を深めていきたいと思います。ポアソン分布とは例題二項分布とポアソン分布の関係ポアソン分布とは「単位時間あたりに平均 λ 回起…

2018-08-26

Chainerで癌の良性・悪性を分類予測してみた

Python DNN ML

Chainerで癌の良性・悪性の分類予測を試してみたいと思います。 Chainerとは Chainerのメリット Chainer構造理解実装編 Chainerで計算できるデータ形式に変換 Chainerで使用するデータセットの形式モデルの定義モデルの定義 Optimizerの定義 Iteratorの定…

2018-08-25

Pythonで学ぶ標準化とは

Python 統計学

異なるグループ間の比較方法として「標準化」と呼ばれる統計的手法があります。同じテストの結果を比較することはは容易ですが、異なる科目のテスト結果の比較は点数だけでは判断できません。このような場合「標準化」は有益です。今回は「標準化」の関連用…

case-kの備忘録

日々の備忘録です。データ分析とか基盤系に興味あります。

pyenvでPython分析環境を構築してみた「Anaconda & Jupyter Notebook」

【GCP入門】大規模データの前処理に！Dataprocクラスタ上で、Datalabを活用したデータ分析環境構築

【GCP入門】大規模データの前処理に！DataprocでPySparkジョブを実行し、GCS内のデータを加工する

【GCP入門】Google Cloud Dataprocで環境構築してみる

モデルのパラメータ探索手法、「グリッドサーチ」ってなんだ

モデルの汎化性を評価する「交差検証」について、Pythonで学んでみた

ランダムフォレストで癌の良性・悪性を分類予測してみた

Pythonで学ぶポアソン分布とは

Chainerで癌の良性・悪性を分類予測してみた

Pythonで学ぶ標準化とは