コンペ情報

コンペに応募するまで

現在,学生データサイエンティスト日本一決定戦 Data Leagueを開催中です.
本コンペではサッカーのJ1最終節全9試合の得点を予測していただきます.

リーダーボード更新期間が終了し,コンペもいよいよ後半戦に突入しましたが,
クラソル運営チームは引き続き皆様のご参加をお待ちしています!
コンペ終了後の問題解説・結果発表会ではデータ分析に携わる社会人と交流することもできますので,
データ分析の腕試しの場としてだけではなく,新たな出会いの場としても,ぜひこの機会をご活用ください!

・・・とはいえ,「コンペに興味はあるけれど,何をしたらいいか分からない」という方もいらっしゃるのではないでしょうか?
そこで今回は,応募までの流れをブログでご紹介したいと思います.
この記事をコンペ参加へのきっかけにしていただければ幸いです.

(1) データのダウンロード
Data Leagueのページ(https://crowdsolving.jp/node/1483/download)から,コンペデータをダウンロードします.
データ利用規約をご確認・ご同意の上,各ファイルのダウンロードを実行してください.
(データのダウンロードにはCrowdSolvingの会員登録およびログインが必要です)
【2015_J1_1st_Result.zip】【2015_J1_1st_Scorer.zip】【2015_J1_CBP.zip】【2015_J1_1st_final_game.zip】の4ファイルは,
リーダーボード更新期間に使うファイルですので,現時点ではダウンロード不要です.
他の8ファイルをダウンロードしましょう.

(2) 応募用サンプルファイルの用意
(1)でダウンロードできる,【submission_sample.csv】という応募用サンプルファイルに予測得点を記入します.
【submission_sample.csv】は,ダウンロードページのフォーマットの記載の通り,
カンマ区切りで1列目にチームID,2列目にそのチームの予測得点が記載されています.
フォーマットはこのままで,2列目の予測得点の値を書き換えてください.

※予測には外部データを用いず,(1)でダウンロードしたデータのみを用いてください.
 また,空欄があった場合は評価ができませんのでご注意ください.

(3) その他のファイルの用意
(2)で記入した予測得点の作成に用いたソースコードやExcelファイル,予測に関するレポートを作成します.
レポートのフォーマットや文量についての制約はありません.
(ソースコードやレポートがなくても応募は可能ですが,入賞の対象から外されてしまいます.ご注意ください)

(4) 応募
(2)(3)で用意したファイルを応募ページ(https://crowdsolving.jp/subscription?compeid=1483)から提出します.
「解析結果提案」から応募用サンプルファイルを,
「レポート提出」からソースコードとレポートをまとめたzipファイルを提出してください.
「使用解析手法」「使用ソフトウェア」の欄にチェックを入れ,
「登録」をクリックすれば応募完了です.

以上が応募までの流れとなります.

ところで,デフォルトでのsubmission_sample.csvの予測値は全チームで同じ値となっています.
これは「最終節の得点はチーム間で違わない」という強い仮説を置き,
コンペ開始時から公開していた【2015年1st試合結果データ】の
第15節までの全節および全チームの得点の平均値を予測値としたためです.
(ちなみにこのまま提出すると,benchmarkscoreと同じスコアになります)
最新データの【2015年1st&2nd試合結果データ】を用いて,同様の方法で予測するのも一つの戦略として考えられます.

しかし,上記の「最終節の得点はチーム間で違わない」という仮説に首を傾げる方もいらっしゃると思います.
チームによって,実際の得失点に差が現れることは容易に想像されます.
(実際にチームごとに得点や失点のヒストグラムを描いてみるとこれは確認できると思います)
また,対戦チームとの相性やチームの調子などにも影響される可能性があります.

このように,何を考慮して,どんなデータを選ぶか(あるいは作るか)を試行錯誤することが,
データ分析を行う上で,最も重要で,最も面白い部分だと思います.
データの選び方を少し変えただけで,予測結果が大きく改善するというのはよくある話です.
必ずしも難しい予測手法やツールを使う必要はありません.
まずは気軽に体験してみてください!

皆様のご応募をお待ちしています!