case-kの備忘録

日々の備忘録です。データ分析とか基盤系に興味あります。

2021-01-01から1年間の記事一覧

DataflowでKinesisを扱う際の注意点

この記事はZOZO Advent Calendar 21日目の記事です。qiita.com DataflowでCloud Pub/Sub からKinesisへ書き込む処理とKinesisからBigQueryへ書き込む処理を作りました。本記事ではDataflowでKinesisを扱う際の注意点をご紹介できたらと思います。github.com …

Embulkプラグイン開発備忘録

Embulkにパッチを当てるための備忘録です。 Ruby Embulkのoutput pluginのリトライ処理を直しました。 github.com Java SQL Serverのinput pluginにパッチを当てるために利用 github.com github.com 事前準備 Embulkを使えるようにします。 curl --create-di…

jRubyを使いfluentdのマルチスレッド処理を高速化できるか検証してみた

rubyでマルチスレッド処理を使うとGILの制約により、CPUのコアをうまく使えなかったのでGILの制約を受けないjRubyで実行する方法を試してみました。マルチプロセスだとinput pluginからout put pluginに渡すrouter.emit_streamがうまく機能しなかったためで…

DigdagのPythonオペレータでPipenvを使う

DigdagのPythonオペレータでPipenvで作ったpython環境を使うようにしました。Dockerfileは次の通りです。 FROM python:3 # use pipenv command in digdag python operator RUN mkdir -p /var/lib/python WORKDIR /var/lib/python RUN pip3 install pipenv CO…

Validation備忘録

Validationの備忘録です Visualizing cross-validation behavior in scikit-learn — scikit-learn 0.24.1 documentationVisualizing cross-validation behavior in scikit-learn — scikit-learn 0.24.1 documentation 基本的な分割方法 Kfold 全てのデータが…

Apache Beam ノートブックを使った開発

Apache Beamノートブックからパイプラインを作ってみました。単純にGCSからファイルを取得し文字数を計算するパイプラインとなります。所感としてはとっても使いやすかったです。JavaだとEclipseを使うことになりますが、データの収集からデバッグまでノート…

Cloud FormationでImage Builderを使ってAMI を自動生成する

Cloud Formationを使ったAWS Image Builderの使い方です。元々RedashのAMIを使っていましたが、環境変数のファイルを変えて再度コンテナをビルドした際AMI側で行ってるビルド処理と重なってしまうせいか、メッセージキューのceleryが動かなくなってしまう事…

Cloud LoggingでBigQueryにシンクしたカンマ区切りのデータをスキーマ単位で分割する

アプリケーションのログCloud Loggingに出力してますがBigQuerで扱いたかったので整形しました。1カラム(jsonPayload.message)に次のような形でデータが入っています。 col_1: value_1, col_2: value_2, col_3: value_3, col_4: value_4 配列にして要素を取…