「コンテンツ販売サービスの会員離脱予測」メモ
順位は4位
使用言語はR
特徴抽出
- アクション頻度、Bigram(頻度が高いもの200個)
- アクション数
- アクション間隔最大
- アクション間隔平均
- 年(POSIXlt の year属性)
- 月(mon+1) 1-12
- 日(mday+1) 1-31
- 曜日(wday) 0-6
- 時間(hour) 0-23
- 1月1日からの日数(yday+1) 1-366
- 入会時曜日
- 1時間当たりのアクション回数推移(Action ID 69 のみ)
- 1日当たりのアクション回数推移(Action ID 42 のみ)
- ロジスティック回帰(glmnet)
- ブースティング(gbm)
特徴重要度高いもの(ブースティングモデルによる)
- アクション:80, 83, 61
- bigram:48x84, 53x61, 44x43, 53x53
- 1月1日からの日数:253, 338, 305, 310
- 日:29, 13
- 時間:0, 14
アンサンブル
- ロジスティック回帰とブースティングの平均
- ブースティングは同じパラメータ、違う乱数の種で16個モデルを作り平均
外部データ
- コンペ終了後株価データを加えてブースティングのモデルを作ってみたが、株価の重要度は結構高かった(ただし実際に効果があるかどうかは未検証)。使ったのは入会時株価と入会1か月後株価
- 天気、テレビ番組、ニュースなど他にも使いたいデータがあるがどうやって集めるかわからない
- 政府統計(家計調査、労働力調査など)も使える気がする
感想
- yday が使えるのは予想外だった。
- 賞金狙いだったので悔しい
- 参加者同士の情報交換(コンペ中、後)がやりにくいので今後も参加するかは未定