case-kの備忘録

日々の備忘録です。データ分析とか基盤系に興味あります。

AutoMLでDSの役割がどう変わりそうなのか調べてみた

著名な方の意見を参考にAutoMLでDSの役割がどう変わりそうなのか調べてみました。

AutoMLとは

AutoMLはGoogleの提供する学習モデル構築サービスで、GCP上のデータ(GCS/GBQ)を使ってモデルを構築するサービスです。GUIベースなのでやることは推定対象の目的変数を選ぶだけです。特徴量として除きたい説明変数は除外することができます。作られたモデルは決定木のように推定で重要な特徴量を確認することができます。新しい特徴量を作りたい場合はBigQueryで特徴量を作り、AutoMLで学習させれば良いのでGCP上で完結します。ノンプログラミングでビジネスサイドの方でもモデルが作れるサービスとなっています。

実施手順

STEP 1

データセットを取り込む
f:id:casekblog:20191023120249p:plain:w300

STEP 2

目的変数を選びモデルを学習
f:id:casekblog:20191023120305p:plain

STEP 3

結果を確認
f:id:casekblog:20191023120557p:plain:w500
f:id:casekblog:20191023120611p:plain:w300
f:id:casekblog:20191023120625p:plain:w500
f:id:casekblog:20191023120651p:plain:w300

メリット

推定精度が高い

AutoMLは以下のような実績もあり、高い精度のモデルを作ることができます。
引用
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
f:id:casekblog:20191023122741p:plain
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

atma.hatenablog.com

簡単でGCP上で完結する

先ほど書いた通り、基本的にはGCP上のデータを取り込んで、目的変数を選ぶだけです。

簡単な分析も可能

分析タブで目的変数との相関など確認することができ、モデル構築後は説明力の高い変数の確認もできます。
f:id:casekblog:20191023121359p:plain

f:id:casekblog:20191023121439p:plain


デメリット

推定精度が安定しない

良い結果がでるときもあれば悪いときもあり実行結果が安定しません。
f:id:casekblog:20191023113424p:plain:w400

費用が高く学習頻度が多い場合は使えない(リアルタイム性の高いデータ)

モデルの学習に1時間1900円と高いです。データの更新頻度と変動が多く再学習が必要なリアルタイム性の高いモデルケースには使えなそうです。

# 公式サイトより引用
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

モデルのトレーニングの費用
モデルのトレーニングの費用としては、この目的に使用されるコンピューティング リソースに対し、1 時間あたり $19.32 が課金されます。秒単位まで計算して請求されます。この料金には、n1-standard-4 と同等のマシン 92 台を並行して使用する料金も含まれています。

また、1 回限り(請求先アカウントごと)の 6 時間の無償トレーニングも用意されています。

モデルのデプロイメントの費用
モデルのデプロイメントの費用としては、モデルをデプロイするマシン 1 台ごとに 1 時間あたり $0.005/GiB が課金されます。MiB/秒単位まで計算して請求されます。現在、低レイテンシに対応するためにモデルを 9 台のマシンのメモリに複製しているため、この費用 × 9 の計算となります。

たとえば、モデルのサイズが 10 GiB であり、デプロイ時間を 3 時間とすると、$0.005 × 10 × 3 × 9、つまり $1.35 が請求されます。

モデルを使用してオンライン予測を実施するには、まずモデルをデプロイする必要があります。

バッチ予測の費用
モデルを使用するバッチ予測の費用としては、1 時間あたり $1.16 が課金されます。秒単位まで計算して請求されます。この料金には、n1-standard-4 と同等のマシン 5.5 台を並行して使用する料金も含まれています。

また、1 回限り(請求先アカウントごと)の 6 時間の無償バッチ予測も用意されています。

オンライン予測の費用
モデルを使用するオンライン予測の費用としては、1 時間あたり $0.21 が課金されます。ミリ秒単位まで計算して請求されます。この料金には、n1-standard-4 と同等のマシン 1 台を使用する料金も含まれます。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
cloud.google.com

モデルの解釈

特徴量の重要度が出ているため、決定木ベースのモデルが使われているように思いますが完全にブラックボックスです。どのアルゴリズムが選ばれているかも確認できません。

DSの意見

おもにTwitterから著名な方達がどう思ってるのか調べてみました。

Kaggler

www.itmedia.co.jp


Googleの方




所感

業務範囲によっても意見が違うように思いました。こちらの動画はDeNAのタクシー配車アプリのMLパイプライン構築の事例です。データサイエンティストが事業の課題抽出から機械学習エンジニアと協力して推定モデルの精度を担保するための仕組み化まで担っています。
www.youtube.comAutoMLはモデリングの自動化ツールなので、推定対象や課題がすでに決まっているものについては効力を発揮しそうです。一方、中身が完全にブラックボックスなので、ある程度機械学習の知識がある方が使わないと誤った使い方をしてしまいそうです。PoCで試しにやるならAutoMLは簡単で高い精度がでるので良いかと思いました。