case-kの備忘録

日々の備忘録です。データ分析とか基盤系に興味あります。

BigQueryでカンマ区切りのデータの分割方法

BIgQueryでカンマ区切りのデータを分割する方法をご紹介します。

データはここに置いておきます。
github.com


サンプルの中身はカンマ区切りのデータとなっています。
f:id:casekblog:20190429173238p:plain:w200

SQLを実行して、以下のようにカンマ区切りのデータ項目を分割することが本記事の目的です。
f:id:casekblog:20190429173446p:plain:w200


まず、対象データをBigQueryに取り込みます。
※ データタイプはStringで取り込んでください。

f:id:casekblog:20190430020616p:plain:w400

テーブルが作成できたら、以下のSQLを実行してください。
UNNEST関数で分割処理をします。今回はカンマ区切りなので以下のように書きます

SELECT
  col_1,
  col_2
FROM
  dataset.gbq_smp190429,
  UNNEST(SPLIT(col_2, ",")) AS col_2

実行結果
f:id:casekblog:20190429173446p:plain:w200


以上となります。