【チャレンジコンペ】記事間のリンク推定

スポンサー 
インフォコム(株)
趣意 

Wikipediaにおける記事間にリンクが存在するかどうか推定するモデルを作成していただきます.
【チャレンジコンペ】とは参加者の技術向上を目指すコンペで,インフォコム自身がスポンサーとなり開催するものです.
上位入賞者のアイディア・ノウハウ等を共有することで,モデル構築の学習に資することを目的としています.

上位入賞者にはモデル作成の際に用いたアイディア・データ加工・手法などについて,
ヒアリングシートに記入いただき,その要旨を本サイト上で公開させていただくことになります.

※懸賞金の受け取りには,上記のヒアリングシートへの回答を条件とさせていただきます.
ご回答,あるいは情報の公開に同意いただけない場合は,
懸賞金の権利が無効になる可能性がありますので,ご了承ください.
情報の公開においては,受賞者様の本サイトでのID以外の個人情報は公開いたしません.

懸賞金総額 
100,000円
懸賞金説明 

1位: 50,000円
2位: 20,000円
3位: 15,000円
4位: 10,000円
5位:   5,000円

スケジュール 

2013/08/14  12:00 開始
2013/09/14  24:00 終了
2013/09/15  24:00 終了

※終了日は変更(延長)される可能性があります.

誤って1日早く終了してしまっていましたので,終了日を1日延長させていただきます. 2013/09/14記載

評価方法 

本コンペの参加者様には,テスト群の記事ペアに対するリンク存在率スコアを提出していただきます
(詳細はデータダウンロードページ”応募用サンプルファイル”をご参照ください).
これらのスコアに対し,AUC(Area Under the Curve)を計算して評価を行います.
予測結果のAUCが高かった上位5名の参加者様を入賞とします.
モデル評価は,一日に一度行われ,順位表が更新されます.
毎日の評価では,評価用データの一部を使って行われます.
最終の評価では,評価データの全てを利用して評価が行われます.
暫定的な順位と最終順位が異なる場合があります.

評価方法画像 
ルール 

本コンペの参加者様には,Wikipedia上の記事間に実際に張られたリンクの一部のデータ,
ならびに各記事の付加情報データを利用して,
リンクの有無が未知である(=主催者によって隠された)記事間のリンクの存在を予測するモデルを作成いただきます.
学習用のデータとして,Wikipediaの全記事中 23,269記事の間に張られたリンクの一部(45,209リンク)および,
各ページについての付加情報(39,541個の特徴)を提供します.
このデータをもとに,指定された記事のペア(78,426ペア)の間にリンクが張られているかどうかを
スコアリングするモデルを作成して提出してください.
リンクの予測スコアは,0~1の連続値とし,
値が大きいほうが「リンクが存在する」状態にある可能性が高いと予測しているということを表すものとします.
各参加者様から提出されたリンク予測スコアについて,
Wikipedia上で実際にリンクが存在するかどうか(※)を照合した上でAUC値を計算し,
最も高いAUC値を実現するモデルを作成した参加者の上位5位を入賞とします.
ただし,提出物に何らかの問題が見つかった場合には上位5名以外が入賞となる場合もあります.

※ 本コンペで使用するデータは,(ある時点において)DBpediaで公開されているものから作成したものであり,
現時点でのWikipediaの状況とは異なる可能性があります.
「Wikipedia上で実際にリンクが存在するかどうか」は
主催者が作成したコンペ使用データにおけるリンクの有無をさすものとします.

その他 

入賞者様にはコンペ終了後,身元確認させていただき,懸賞金をお支払いたします.
別途ヒアリングシート(分析方法の説明等)にご記入の上,提出いただきます.
詳しくは”利用規約”をご参照ください.

このコンペで使用されているデータセットは
クリエイティブ・コモンズ 表示 - 継承 3.0 非移植 ライセンスの下に提供されています.

クリエイティブ・コモンズ・ライセンス