Recruit Data Blog

この記事はリクルート社内で実施したMLコンテストについての連載記事の第1回目です。
2015年度から試行錯誤を重ねながら毎年実施しており、そこで得られたノウハウを共有することで、同じようなイベントの実施を検討されている方に参考になれば、と思い本ブログを執筆しました。

本連載は
(1)イベント自体の背景と試行錯誤の歴史
(2)今回のイベントのために用意した環境
(3)上位入賞者へのインタビュー
で構成されます。本記事ではイベント自体の背景と試行錯誤の歴史を振り返り、「なぜ」今回のようなイベント実施に至ったかを紹介します。

リクルートでは本MLコンテストに類似したイベントを、2015年度から年に1回以上のペースで開催していました。大きく以下の3種類ありました。

  1. 学生向け自然言語処理ハッカソン 2015~2019 過去5回実施
    https://atl.recruit.co.jp/blog/3033/
    https://blog.recruit.co.jp/rtc/2016/02/16/recruit_nlp_hackathon_2_result/
    https://blog.recruit.co.jp/rtc/2017/05/12/recruit_nlp_hackathon3_2016/
    https://blog.recruit.co.jp/rtc/2018/01/30/nlp_hackathon4/
    https://blog.recruit.co.jp/rtc/2019/03/11/recruit_nlp_hackathon_2018_2/

  2. 新人向けデータ分析研修 2018~ 過去4回実施
    https://blog.recruit.co.jp/rtc/2018/05/29/data_bootcamp2018/
    https://blog.recruit.co.jp/rtc/2019/07/02/rtech_bootcamp_2019/
    https://blog.recruit.co.jp/rtc/2020/08/21/rtech_bootcamp_2020/
    https://blog.recruit.co.jp/rtc/2021/08/20/recruit-bootcamp-2021/

  3. 社内向けMLコンテスト 2021~ 
    https://blog.recruit.co.jp/data/articles/ml_compe2021_vol1/

学生向け自然言語処理ハッカソン

学生向け自然言語処理ハッカソンは、公募した学生を対象とした4泊5日(交通費や宿泊費は弊社負担)の大掛かりなイベントでした。リクルート側で用意した非公開データを対象に、探索的データ分析を行い、有意義な結果を見出しそれをプレゼンしてもらう、という内容でした。 初回はRedshift+ローカルPython環境でしたが、後半はBigQuery+AWS上のJupyter Notebookで環境でした。参加者は10名としていました。

当時は今ほど就業型のインターンシップが盛んではなく、特に地方の学生で就職後の業務イメージが湧きづらかったです。
また、(情報系であっても)大学で学ぶことと会社での業務との間に断絶があることが当たり前である、といった風潮がまだ残っているように感じられました。学生がこのイベントに参加することで、例えば大学で学んでいる科学的・論理的な考え方や発表の仕方、研究で身につけられる専門技能などが社会に出ても有益であることを体感し、将来への漠然とした不安を払拭することで、大学での学びにより集中してほしいという狙いがありました。
「自然言語処理」に焦点を当てていたのは、当時は今ほど「自然言語処理」が盛り上がっていなかったので狙い目に見えたからです。

ここ最近は、就業型インターンシップや新卒の専門職採用が広まり、自然言語処理も大変人気のある分野になってしまい、当初の意義がだいぶ薄れてしまいました。
ということもあり2019年3月を最後にこの形式のイベントは開かれていません。

新人向けデータ分析研修

新人向けデータ分析研修はリクルートのオムニバス形式の新人研修のひとつとして行われています。
最初のうちはエンジニア採用の新人だけを対象にしていましたが、途中からエンジニア採用とデータスペシャリスト採用の合同研修としています。

元々の狙いは、エンジニア採用の新人に対して、探索的データ分析や機械学習の仕事を擬似体験してもらい、今後データスペシャリストの新人が配属される部署との協働をやりやすくするといったものでした。
最近では合同開催となったため、ますますその意味合いが強まってます。当初の参加者は10名に満たない人数でしたが最近では1回に30名以上参加するイベントになっています。

テーマを自由にした探索的データ分析 or 目的が明確な予測問題のどちらにするか、や個人戦 or チーム戦の間で何度か試行錯誤しましたが、
(1)新人の習熟度のばらつきが大きくテーマ自由だと研修を成立させるための運営側の難易度が高い
(2)協働を目的においたためチーム戦の方が望ましい
といった考えのもと、最近は2日間の開催で目的が明確な予測問題をチーム戦で取り組む、といった方式にしています。
環境はBigQuery+Colaboratoryでした。

今後、データを活用したシステム開発の重要度は高まり続けると考えているため、この研修は来年度も継続予定です。

社内向けMLコンテスト

新人向けデータ分析研修が好評で、新人以外でも実施したいという声がありました。 イベントを開始した2015年度と比べ、社内でデータサイエンスやデータエンジニアやデータマネジメントといった職種で働く人が格段に増え、Kaggle経験者も珍しくなくなったため、一斉に同じ問題に取り組むことで社内の人のつながりの強化やスキル転移が進むのではと考えました。

このときの環境準備についてや実際に狙いが達成できたかは第2回以降の連載で詳細に話します。
結論だけ言うと成功しました。なのでブログにもなってます。

このように背景や環境の変化によってイベントの形は変化していきましたが、実際のデータを使う重要さや使いやすい分析環境とは、といった根幹の思想部分にはあまり変化がなかったです。

リクルートではこの種のイベントを引き続き実施していく予定です。この種のイベント企画に興味ある人にとって本記事が少しでも参考になれば、と思います。データ分析が得意な人間が増えますように!


この施策の立ち上げ背景などに関しては、企画担当の田中から紹介します。

MLコンテストの立ち上げ背景

データ推進室の組織運営を行っている田中です。

企画当初は、リクルート各社が経営統合したタイミングでしたので、全社横断的な人材マネジメント制度は設計が進む一方、データ組織独自の職務に対する育成支援制度は不足していました。 組織長やメンバーなどにヒアリングをして生の声を集めたところ、育成に関する課題や取り組み状況は個人ごとに異なり多くの悩みがあることがわかりました。
また、学びたい・成長したい欲求は皆にあるものの、それを集団で学びたい人もいれば、個人で完結したい人など様々なニーズがあることが分かりました。

そこで、いかに個人が学ぶ機会を作るかということ以上に、データ組織に所属する者同士で相互に学習し合うことで育成効率が高められるのではないかと考えるようになり、データ組織独自の育成支援制度を設計しました。

目的と成果

育成支援制度全体の目的は以下2点においています。
(1)データ組織に所属する社員の成長スピードを早め、一人前として専門性発揮ができる人材へ早期に到達させる
(2)データ組織の各職務に必要なナレッジ・スキルを自律的に学び・相互に学び合える機会を創出する

ココでのポイントは自律的に学ぶのみならず、”学び合える”機会の創出と置いた点です。
”学び合える”とは、教える側と教わる側が相互に関わり合うことを目指しています。一見すると、教える側のメリットはすぐには得にくいですが、教わる者が早期に立ち上がれば教える側の負荷も解消されていくため、まず教える側の意欲を大事にしました。

制度検討を進める中で、偶然にも現場の方から「MLコンテストを開催してみませんか?」と提案をもらいました。 教える側の意欲を大事にしたかったという思いもありましたが、現場感を知っている方のボトムアップの提案で実現することができたのが、成功の要因だったと思います。

今回のMLコンテストの主目的は、 実際の業務以外の場で、実務力・技術力が高い人を認知することとし、詳細企画・推進は現場メンバーが主導で行いました。

詳細の作りこみを現場メンバーが主導することで、より実務に近いリアルなデータを用いた模擬実践の場を提供することができ、参加した方々全員にとってよい学びの機会になりました。 今後もブラッシュアップしながら、継続的に企画を推進していきたいと思います。

We are Hiring!!

弊社では、様々な職種のエンジニアを募集しています。興味のある方は、以下の採用ページをご覧ください。

===========================

株式会社リクルート 中途採用サイト
リクルート 学生向けキャリアサイト

===========================

Naoya Osugi

データサイエンティスト、検索エンジニア、エンジニアリングマネージャー

Naoya Osugi

A/Bテストの実践をガイドしてます