case-kの備忘録

日々の備忘録です。データ分析とか基盤系に興味あります。

Docker備忘録

備忘録です。流れは以下のようになります。 Docker install Docker Image Docker Pull Docker Container Create Image from Container Commit Created Image Docker Build Create Web Server Dockerfile Docker Push 個人的にDockerはGit扱いに非常に類似し…

【GCP入門】Google BigQuery データセット作成からデータ抽出までハンズオン形式で行います

今回はGCPが提供するGoogle BIgQueryに関する記事を書きます。データ読み込み・出力方法やクエリ検索まで備忘録も兼ねて記事を書きます。 この記事の目的 BigQueryとは BigQueryのメリット・デメリット メリット デメリット クエリ備忘録 集計関数 条件付き…

pyenvでPython分析環境を構築してみた「Anaconda & Jupyter Notebook」

今回はPythonで機械学習を行うために必要な環境構築の一連の流れを記事にしました。Pythonのバージョン管理を行うpyenvコマンドを活用し、機械学習を行うパッケージ「Anaconda」のインストールと分析可視化環境「Jupyter Notebook」を構築してみます。 本記…

【GCP入門】大規模データの前処理に!Dataprocクラスタ上で、Datalabを活用したデータ分析環境構築

今回は、GCPの可視化分析ツールDatalab [Goolge Cloud Datalab] の環境構築に関する記事を書いてみました。 Dataproc [Goolge Cloud Dataproc]クラスタ上でDatalabを構築するメリットを実際のユースケースも考慮して書いてみます。 本記事の目的 Datalabとは…

【GCP入門】大規模データの前処理に!DataprocでPySparkジョブを実行し、GCS内のデータを加工する

今回はDataproc クラスタ上でジョブを実行し、GCS内のデータを加工したいと思います。 本記事の目的 本記事の用途 事前準備[ Dataprocクラスタ, GCSバケット ] PySparkで簡単なジョブを実行 Pig ジョブの実行 出力ファイルの取得 GCS内のデータを活用してPyS…

【GCP入門】Google Cloud Dataprocで環境構築してみる

今回はGoogle Cloud Dataprocで環境構築をしてみました。Dataproc入門者を対象に記事を書きたいと思います。 本記事の目的 Google Cloud Dataprocとは Dataprocメリット・デメリット クラスタ構築 CLIでクラスタを管理 本記事の目的 ・Google Cloud Dataproc…

モデルのパラメータ探索手法、「グリッドサーチ」ってなんだ

今回はモデルの性能を向上させるための手法、グリッドサーチの記事を書いてみました。 本記事の目的 グリッドサーチとは 単純なグリッドサーチ 単純なグリッドサーチの問題点 単純なグリッドサーチの解決策について 交差検証を用いたグリッドサーチ 本記事の…

モデルの汎化性を評価する「交差検証」について、Pythonで学んでみた

今回はモデルの汎化性を評価するための統計手法である交差検証について記事を書いてみました。 本記事の目的 交差検証とは 交差検証のメリット・デメリット k分割交差検証(k-fold cross-validation)とは 層化k分割交差検証とは 活用用途 本記事の目的 ・交差…

ランダムフォレストで癌の良性・悪性を分類予測してみた

ランダムフォレストで癌の良性・悪性を分類分類予測してみました。以前にChainerで同様の癌の分類問題を行ったので、比較してみたいと思います。 ランダムフォレストとは ランダムフォレストのメリット・デメリット メリット デメリット 実装編 ランダムフォ…

Pythonで学ぶポアソン分布とは

代表的確率分布の一つである、ポアソン分布について記事を書きました。ポアソン分布の概要や実際の例題を解きながら理解を深めていきたいと思います。 ポアソン分布とは 例題 二項分布とポアソン分布の関係 ポアソン分布とは 「単位時間あたりに平均 λ 回起…