Kaggle のランキング

2015/5/13 にランキングシステムが変更された。

新旧ポイント計算式

A: チームメンバー数
B: 順位
C: 参加チーム数
D: min(コンペ終了からの期間(年), 2)
t: コンペ終了からの期間(日)

新 
\frac{100000\cdot\log_{10}{(1 + \log_{10}\rm C)}}{\rm \sqrt A \cdot B^{0.75}}\cdot \exp{\frac{-t}{500}}

旧 
\frac{100000\cdot\log_{10}\rm C}{\rm A \cdot B^{0.75}}\cdot\frac{2-\rm D}{2}

詳しくは以下を参照
ランキングの定義 https://www.kaggle.com/wiki/UserRankingAndTierSystem
変更の経緯 Improved Kaggle Rankings | No Free Hunch
変更に対する反応 Improved Kaggle Rankings


次にKaggleのランキングに関するツイートを紹介する。すべてシステム変更前のものだが、ランキングの現状をよく表している。

Beatbenchmark:コンペ参加者がForumに投稿した予測作成コード

  • Beat the bencnmark .. というタイトルであることが多い。以下BtBと略す。
  • 出力ファイルをそのまま提出できる。
  • 運営者が用意したベンチマークよりもスコアが良い。
  • 多くはシンプルなコードで、あまりパラメタチューニングをしていない。
  • コンペ終わりごろに高スコアのBtBが投稿されて議論になることがある。参考 Possible modification to competition rules - Code sharing | Kaggle

User Rankings1ページ目Kaggle Rankings

  • 現在は1ページ目に100位まで載っているが、システム変更前は40位までだった。私は5月19日0時時点で45位

以下のTOP10% TOP25%などはコンペの順位

たくさんコンペに参加させるための罠

  • 参加した分ポイントはプラスされるが、時間の経過とともに減っていくから

  • TOP25%:BtBを使えば簡単にいけそう
  • TOP10%:複数のBtBを組み合わせればそれほど難しくないと思う。
  • TOP10: 私自身はTOP10を目指しているので、BtBは最初のとっかかりに使う程度。
  • 入賞
    • コンペ終了後にいつも思うことは、上位の人はたくさんのモデルをうまく組み合わせているなあということ。私はせいぜい3〜4種類しかアンサンブルさせてない。今後もう少し戦略を変えないと賞金はもらえそうにない。

そのツールはすごい人がすごく頑張って作ったもの

  • 最近だとXGBoostがすごい。初心者でも使い方を理解すれば高スコアが出せる。

そのラインを超えられると一気に順位が上がる

  • 特徴抽出、異なるタイプのモデルを組み合わせるなど