ランキング学習の目的変数とLightGBMのパラメータについて

こんにちは。人材領域でレコメンドシステムの機能開発をしている羽鳥です。今日はレコメンドの要素技術でもよく使われている LightGBM でランキング学習を行うときのTipsと、LightGBMのパラメータに関してのちょっとした知識について紹介したいと思います。

LightGBMのソースコードを見てみる

最後に目的変数のドキュメントの周辺をもう少しだけ深掘りしてみようと思います。先ほども紹介したように、LightGBMの各種パラメータについて書いてある部分は Parameters.rst になるわけですが、このファイルを呼び出している箇所は parameter_generator.py というpythonファイルになります。

このpythonファイルは config.h というC++のヘッダーファイルからLightGBMのオプションを定義したドキュメントなどを作成するためのものです。そしてこのファイルはpythonとRとC++が複雑に絡み合うLightGBMのソースコードの中で、数少ない部分的に実行できるモジュールになっています。

というわけで早速デバッガーを仕込んで実行してみましょう。

git clone https://github.com/microsoft/LightGBM.git
cd LightGBM
python -m pdb helpers/parameter_generator.py

適当なところにブレークポイントを仕込んで中を見てみます。

(Pdb) b 386
Breakpoint 1 at ~/LightGBM/helpers/parameter_generator.py:386
(Pdb) c
> ~/LightGBM/helpers/parameter_generator.py(386)<module>()
-> sections, descriptions = gen_parameter_code(config_hpp, config_out_cpp)
(Pdb) n
> ~/LightGBM/helpers/parameter_generator.py(387)<module>()
-> gen_parameter_description(sections, descriptions, params_rst)

このgen_parameter_codeがこのpythonファイルの肝となっている部分です。config.hで定義されたパラメータ情報を整形し、sectionsとdescriptionsという二つの変数を返すとともに、config_auto.cppを自動生成しています。

ここで sections の中身を見てみます。

(Pdb) pp type(sections), len(sections), sections[0], sections[1]
(<class 'list'>, 10, ('Core Parameters', 1), ('Learning Control Parameters', 1))

このようにsectionsは長さが10のListで、その中にはLightGBMが持つパラメータの大分類が入っていることがわかりました。Core ParametersやらLearning Control Parametersやらは LightGBMの公式ドキュメントなどでおなじみだと思います。

次にdescriptionsを見てみると、こちらも長さ10のListであることがわかります。

(Pdb) pp type(descriptions), len(descriptions)
(<class 'list'>, 10))

descriptionsはsectionsに対応するパラメータの詳細が記述されています。例えば、sections[1]には Learning Control Parametersが格納されていましたが、descriptions[1]にはこれに対応するmax_depthやbagging_fractionなどの具体のパラメータの仕様が入っています。試しに4番目の中身を見てみると、慣れ親しんだmax_depthの詳細が入っていることがわかります。

(Pdb) pp descriptions[1][3]
{'default': ['-1'],
 'desc': [('l1',
           'limit the max depth for tree model. This is used to deal with '
           'over-fitting when ``#data`` is small. Tree still grows leaf-wise'),
          ('l1', '``<= 0`` means no limit')],
 'inner_type': ['int'],
 'name': ['max_depth']}

このようにして得られたパラメータに関する情報をgen_parameter_description関数の中でparams_rstで定義されているパスに書き込んで全体の処理は終わりになります。

こうしてみてみるとLightGBMのドキュメントは大元となるconfigファイルを特定のフォーマットに従って記入し、そこからドキュメントを自動的に生成していることがわかります。試しに手元でParameters.rstの.. start params list\n\nから\n\n.. end params listまでと、config_auto.cppの全てを削除したのちにparameter_generator.pyを実行してみると、Parameters.rstとconfig_auto.cppの内容が再度挿入されることがわかると思います。

ちなみに、もともとの発端となったランキング学習の目的変数についても config.hの中に記載があることが見て取れます。