第３回リクルート自然言語処理ハッカソン報告

リクルートテクノロジーズの大杉です。
以前、公募していたリクルート自然言語処理ハッカソンの報告です。

メンター仕事してました

今回はアナウンスどおり、BigQuery を中心とした分析環境を用意しました。その中にリクルートのとあるメディアのWeb版の Adobe Analytics 用ログや記事情報、公式アカウントの Twitter でのつぶやきのデータなどをぶち込みました。
やはり、BigQueryはWebでのUIが便利ですし、Python向けのGoogle のAPIを利用した認証も楽でした。ただ、学生にとってはPythonとくらべてSQLは馴染みがなかったようで、短いハッカソン期間の中でSQLを学ぶのは大変そうでした。とはいえ、ある程度のデータサイズになるとメモリに乗り切らなくなり、現代ではなんらかしらのデータベースを使うことになります。その中でもっともメジャーなSQLは学んでおいたほうが絶対に良いので、勉強という点では大変良かったと思ってます。

会場の様子

４泊５日で、言語仕様や環境の学習からデータ理解、仮説出しから分析、そして最終発表までを高密度に詰め込んだため、今回もかなり濃いハッカソンになりました。
本ハッカソンではチームでなく個人で挑むことを大前提にしているため、1人1テーマでそれぞれ発表を行いました。
このハッカソンで表彰された方と内容は以下のとおりです。
・最優秀賞
松岡佑知さん（大阪大学大学院）「因果推論とトピックモデルによる記事タイトルの統計解析」

・技術賞
金基煜さん（京都大学）「どの記事がウケるかをビックデータと機械学習を用いて事前に判断」

・ビジネス賞
久保大輝さん（奈良先端科学技術大学院大学）「対話を用いた記事推薦システム」

・特別賞
野本英梨子さん（大阪大学）「ツイートすべき記事」

最優秀賞は、交絡因子を考慮してIPW推定量を用いた場合と、交絡因子を考慮しなかった場合の各要因に対して分析を行い、施策によるPV数向上効果を予測したものです。その結果、20文字以下のタイトルではPVが低くなる傾向が発見されました。この発見自体が興味深く、また因果推論をちゃんと適用し解釈の余地の少ない結果まで出した技術レベルの両方が評価されました。

技術賞には、ひたすら記事のPV予測をさまざまな機械学習モデルで行い、その中で最も良いモデルをベースにしたWebアプリまで作成した取り組みが選ばれました。とにかくアウトプットの質と量が圧倒的でした。
ビジネス賞では、いわゆる対話bot的なもので記事推薦を行うシステムのアルゴリズムをCART法で作ったものが選ばれました。作った本人はビジネスのことを考えず、ひたすら好きなものを作っただけのようですが、逆に斬新な発想にみえたようです。多様性大切。

その場の勢いで作った特別賞では、課題設定や解決方法に対して、ちゃんと考えられており、特に質疑応答の場面で光った発表を選びました。

表彰後の集合写真

今回も非常に良いハッカソンになりました。学生からコメントの中で特に嬉しかったものは「非常に良い勉強になった」と「自然言語処理ハッカソンというよりも前処理ハッカソンだった」の２つです。特に後者。これでもBigQueryにそこそこ使いやすい状態でテーブルになっている時点できれいな方なのですが、どうしても自分で一から問題設定しようとすると前処理の比重が高くなってしまいます。それが強力に伝わったのは良かったかと思います1。

また、こんな感じの交通費宿泊費ありの豪華仕様のハッカソンできるよう仕事がんばります！

例えば、記事本文情報の中にHTMLタグは残したままにしてました。もしかしたら画像枚数取得などの目的で使い人がいるかも、と思って残したのですが、今回は誰もHTMLタグを使いませんでした。