はじめに
データマイニング分野の国際会議KDD2023のワークショップである Causal Inference and Machine Learning in Practice にて、リクルートの翁と西村、 東京工業大学中田研究室 の成民濟さん、小林健先生、中田和秀先生との共同研究について発表しました。
KDD2023はカルフォルニア州ロングビーチにて、8月6日から10日にかけて開催され、初日の昼まで時点で2200名以上が参加登録されたそうです。
本記事では、ワークショップで発表した An IPW-based Unbiased Ranking Metric in Two-sided Markets(双方向の表示順バイアスを考慮したランキング指標)について概要を紹介します。
An IPW-based Unbiased Ranking Metric in Two-sided Markets
背景
昨今の推薦システムでは、ユーザの行動ログに基づいてアイテムを推薦しています。具体的には、クリックやコンバージョン(商品の購入、契約 etc.)などのデータが用いられます。クリックやコンバージョンといったユーザが明示的に嗜好度を示していないが、その行動から推測できる程度の興味や好みを反映したデータを Implicit Feedback と呼びます。Implicit Feedback はユーザの明示的に表明した嗜好度に比べて大量に収集することが容易なため、機械学習モデルの学習と相性が良いという特性があります。 しかし、Implicit Feedback を正解ラベルとして用いる際の注意点として、Implicit Feedback とユーザのアイテムに対する真の嗜好度は必ずしも一致しないことが挙げられます。 例としてECサイトにおいてユーザが真に興味のあるアイテムが画面の最下部に表出されていた場合を考えます。ユーザは最下部までスクロールせず離脱するケースが往々にしてあるため、「クリックしたか」と「真に興味があるか」は等しくないことが容易に確かめられます。このようなアイテムの位置に起因する Implicit Feedback のバイアスをポジションバイアスと呼びます。
このようなバイアスを考慮せずに機械学習モデルの学習やオフライン評価を行ってしまうと得られる結果にもバイアスが乗り、結果として誤った意思決定に繋がる可能性があります。そのため、多くの手法がバイアスを緩和する目的で提案されています。最も広く使われてる手法の一つに Inverse Propensity Weighting (IPW) があります。これは Precision や DCG などのランキング指標において、アイテムの観測確率 (Propensity Score) の逆数をラベルに重み付けることで、画面下部に表示されたアイテムの重要度を上げることで上手く調整する手法となります。ユーザが与えたImplicit Feedback、機械学習モデルによるランキング、ログ収集時にそのアイテムが表示された順位の三組 $(y, r, k)$ の集合を $\mathcal{D}$ としたとき、バイアスを考慮しない素朴なランキング指標は以下のように書けます:
$$ \mathcal{R} = \sum_{(y, r, k) \in \mathcal{D}} y \cdot f(r). $$
ここで $f(\cdot)$ は順位に対する重み関数であり、代表的なランキング指標と $f$ の形状は以下のように対応付けられます:
ランキング指標 | $f(r)$ |
---|---|
$\mathrm{DCG}$ | $1 / \log (1 + r)$ |
$\mathrm{Precision}@K$ | $\mathbb{1}_{r \le K} / K$ |
$\mathrm{MRR}$ | $1 / r$ |
$\mathcal{R}$に対し、アイテムの表示位置 $k$ のみに依存する観測確率 $\theta_k$ を用いて IPW 化したランキング指標は以下のように書き表されます:
$$ \mathcal{R}_{\mathrm{IPW}} = \sum_{(y, r, k) \in \mathcal{D}} \frac{y}{\theta_{k}} \cdot f(r). $$
既存の研究ではユーザのアイテムの関係性が単方向、すなわちECサイトのようなユーザからアイテムに対して何らかのアクションが発生するケースのみを扱ってきました。一方で世の中にはジョブマッチングプラットフォームやオンラインデーティングアプリのような、2つのユーザ群が双方にアクションを及ぼし合うプラットフォームもあります。このようなプラットフォームは Two-sided Market と呼ばれます。対してECサイトのような単方向なプラットフォームを One-sided Market と呼ばれます。 例えば、ジョブマッチングプラットフォームでは、求職者が企業に「応募」することで Implicit Feedback が生じますが、企業が応募一覧から「採用オファー」を出すことで、双方向の Implicit Feedback が発生します。このようなケースでもポジションバイアスが問題となります。
我々はTwo-sided Marketにおいては双方のユーザの Implicit Feedback にポジションバイアスの問題が発生することを考慮し、バイアスを軽減した上でオフライン評価を行う枠組みを提案しました。
アプローチ
今回の発表で我々は双方向の Implicit Feedback データから真の嗜好度に基づくランキング指標を推定する方法を提案しました。提案手法の詳細は arxiv や 発表スライド に任せ、ここでは概要を伝えたいと思います。
まずProactive sideとReactive sideという2つのユーザ群があると仮定します。ジョブマッチングの例では応募をする求職者がProactive side、応募された求職者のプールから誰を採用するか決める雇用側がReactive sideとなります。
本研究ではProactive sideのユーザ(以下Proactive userと呼ぶ)向けにアイテムを推薦することを考えます。Proactive userの目標は自分を嗜好するReactive userとマッチングすること(ジョブマッチングの例では採用されること)なので、以下のような順序でアイテムが並んだ状態が理想的と言えます。
- Proactive/Reactive user双方が嗜好するアイテム
- Proactive userのみが嗜好するアイテム
- それ以外
あるロジックに基づいてソートしたアイテムがどの程度理想的かを測る評価においては、収集された Implicit Feedback と DCG などのランキング指標を用いてオフライン評価を行います。しかし、Two-sided Market においては双方のユーザが他方のユーザを何らかの一覧から選択をするため、既存の研究で考慮されていた Proactive user 側のポジションバイアスのみならず、Reactive user 側のポジションバイアス慮する必要があります。 我々は双方向の傾向スコアを用いたIPW化したランキング指標を導出し、Two-sided Market においてより精緻にランキング手法を比較する枠組みを提案しました。
また、人工データを用いた数値実験により、提案手法を用いて学習したモデルがIPWを用いないナイーブな手法及び既存のProactive sideのバイアスのみを考慮して学習したモデルより良い結果が得られ、提案手法の優位性が確認出来ました。
インプリケーション
本研究において理想的なランキングを以下のように1つ固定して議論を行いました。
1. Proactive/Reactive user双方が嗜好するアイテム
2. Proactive userのみが嗜好するアイテム
3. それ以外
しかし、どのようなアイテムが上位に来るべきかはアプリケーションに依存するため、実際に今回の手法を適用する際には注意が必要です。また、Future workとしてより一般的な問題設定でも今回と同様な議論が出来るのかを調べる余地があると考えています。
また、本研究においてはProactive sideのユーザに対する推薦のみを考えましたが、問題を更に拡張してReactive sideのユーザに対しても何らかの推薦を行うケースも考えられます。このような状況においてどのような指標を最適化すべきかについても議論の余地があると考えています。
おわりに
今回の論文投稿をするにあたり、共同研究者の成民濟さん、小林健先生、中田和秀先生には日々の研究の議論から論文執筆に関する助言まで手厚くフォローして頂きました。Cornell大学の齋藤優太さんには数値実験、評価方法に関して非常に有益なアドバイスを頂きました。また、同氏による著書 「施策デザインのための機械学習入門」 は本研究を考える良いきっかけともなりました。この場を借りて深く御礼申し上げます。
一緒に働きませんか?
弊社では新卒・中途ともに様々な職種のエンジニアを募集しています。ご興味ある方は是非以下の採用ページをご覧ください。
データサイエンティスト
翁啓翔
リクルート入社6年目。最近は人材領域でのデータ周りの分析を担当。
シニアデータサイエンティスト
西村直樹
リクルート入社9年目。最近は人材領域・販促領域でのデータ周りの諸々を担当。