「コンテンツ販売サービスの会員離脱予測」メモ

順位は4位

使用言語はR

特徴抽出

  1. アクション頻度、Bigram(頻度が高いもの200個)
  2. アクション数
  3. アクション間隔最大
  4. アクション間隔平均
  5. 年(POSIXlt の year属性)
  6. 月(mon+1) 1-12
  7. 日(mday+1) 1-31
  8. 曜日(wday) 0-6
  9. 時間(hour) 0-23
  10. 1月1日からの日数(yday+1) 1-366
  11. 入会時曜日
  12. 1時間当たりのアクション回数推移(Action ID 69 のみ)
  13. 1日当たりのアクション回数推移(Action ID 42 のみ)

モデリング

  • ロジスティック回帰(glmnet)
  • ブースティング(gbm)

特徴重要度高いもの(ブースティングモデルによる)

  • アクション:80, 83, 61
  • bigram:48x84, 53x61, 44x43, 53x53
  • 1月1日からの日数:253, 338, 305, 310
  • 日:29, 13
  • 時間:0, 14

アンサンブル

  • ロジスティック回帰とブースティングの平均
  • ブースティングは同じパラメータ、違う乱数の種で16個モデルを作り平均

外部データ

  • コンペ終了後株価データを加えてブースティングのモデルを作ってみたが、株価の重要度は結構高かった(ただし実際に効果があるかどうかは未検証)。使ったのは入会時株価と入会1か月後株価
  • 天気、テレビ番組、ニュースなど他にも使いたいデータがあるがどうやって集めるかわからない
  • 政府統計(家計調査、労働力調査など)も使える気がする

感想

  • yday が使えるのは予想外だった。
  • 賞金狙いだったので悔しい
  • 参加者同士の情報交換(コンペ中、後)がやりにくいので今後も参加するかは未定