case-kの備忘録

日々の備忘録です。最近はGCPやデータ分析系のことを呟きます

Kaggle APIキーでコンペのデータを取得する方法

Kaggle APIキーでコンペのデータを取得します。備忘録です。

$ curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
$ sudo python get-pip.py
$ sudo pip install kaggle 

KaggleアカウントのプロフィールからAPIキーを作ります。
f:id:casekblog:20191102164052p:plain

kaggleコマンドをインストールすると.kaggleディレクトリができるので、配下にAPIキー(kaggle.json)を配置します。

#home/user name/.kaggle/kaggle.json
{"username":" ","key":" "}


開催されているコンペを確認しデータを取得します。

$ sudo chmod 600 /home/user/.kaggle/kaggle.json
$ kaggle competitions list
ref                                            deadline             category            reward  teamCount  userHasEntered  
---------------------------------------------  -------------------  ---------------  ---------  ---------  --------------  
digit-recognizer                               2030-01-01 00:00:00  Getting Started  Knowledge       2453           False  
titanic                                        2030-01-01 00:00:00  Getting Started  Knowledge      13435            True  
house-prices-advanced-regression-techniques    2030-01-01 00:00:00  Getting Started  Knowledge       4894           False  
imagenet-object-localization-challenge         2029-12-31 07:00:00  Research         Knowledge         56           False  
tensorflow2-question-answering                 2020-01-22 23:59:00  Featured           $50,000        214           False  
data-science-bowl-2019                         2020-01-22 23:59:00  Featured          $160,000        458            True  
pku-autonomous-driving                         2020-01-21 23:59:00  Featured           $25,000        114           False  
competitive-data-science-predict-future-sales  2019-12-31 23:59:00  Playground           Kudos       4673           False  
ashrae-energy-prediction                       2019-12-19 23:59:00  Featured           $25,000       1449           False  
Kannada-MNIST                                  2019-12-17 23:59:00  Playground       Knowledge        589           False  
bigquery-geotab-intersection-congestion        2019-12-12 23:59:00  Playground           Kudos        330           False  
cat-in-the-dat                                 2019-12-09 23:59:00  Playground            Swag        976           False  
nfl-big-data-bowl-2020                         2019-11-27 23:59:00  Featured           $75,000       1191            True  
understanding_cloud_organization               2019-11-18 23:59:00  Research           $10,000       1210            True  
3d-object-detection-for-autonomous-vehicles    2019-11-12 23:59:00  Featured           $25,000        479           False  
rsna-intracranial-hemorrhage-detection         2019-11-11 23:59:00  Featured           $25,000       1290           False  
severstal-steel-defect-detection               2019-10-24 23:59:00  Featured          $120,000       2434           False  
kuzushiji-recognition                          2019-10-14 23:59:00  Playground         $15,000        293           False  
youtube8m-2019                                 2019-10-11 23:59:00  Research           $25,000        283           False  
ieee-fraud-detection                           2019-10-03 23:59:00  Research           $20,000       6381           False 


今回data-science-bowl-2019 に参加したいので、以下のようにしてデータを取得します。

$ mkdir input
$ cd input
$ kaggle competitions download -c "nfl-big-data-bowl-2020" -w
Downloading nfl-big-data-bowl-2020.zip to .
 89%|████████▉ | 49.0M/55.1M [00:00<00:00, 53.1MB/s]
100%|██████████| 55.1M/55.1M [00:00<00:00, 93.8MB/s]

取得したデータを解凍します。

# Debain  sudo apt-get install zip unzip
$ sudo yum install unzip
$ unzip nfl-big-data-bowl-2020.zip