【ファイナンス機械学習 解説】著者の解説スライドを日本語でまとめてみる(1/10)

目次

あわせて読みたい

【感想あり】おすすめのUdemy動画講座:機械学習・データサイエンスに必要な数学とPythonの入門編【随時更新】 | Quant College

【感想あり】おすすめのUdemy動画講座:機械学習編【随時更新】 | Quant College

金融工学関連でおすすめの本:まとめ(目次) | Quant College

LIBOR廃止とRFR移行のまとめ | Quant College

新作note『CVA入門』をリリースしました。 | Quant College

関連記事

はじめに

『ファイナンス機械学習 』著者のMarcos Lopez de Prado氏が自身のサイト『ファイナンス機械学習』に関する講義スライドを全編無料公開している。
『ファイナンス機械学習 』については、
botter界隈やシストレ界隈では
・『ファイナンス機械学習 』を抱いて寝る人
・『ファイナンス機械学習 』を枕にして寝る人
・『ファイナンス機械学習 』で枕投げをする人
が続出しているらしく?、
幅広く読まれているようだ。

このシリーズ記事では、 著者の了解を得て、上記の講義スライドを日本語でまとめる。 英語だとどうしても読むのに時間がかかったりエネルギーを多く使ってしまう、という方向け。全10回あるが、今回はその第1回のスライドを取り上げる。ログインのような画面になる場合は、メールアドレスとパスワードを入力してSSRNのアカウントを作ればダウンロードできる。
本記事はQuantCollege管理人の学習メモであり、
管理人は必ずしもこの分野の専門家ではない点につきご留意頂きたい。

参考文献

ファイナンス機械学習の続編とも言われている、同じ著者の新しい本はこちら。
(2020/11/12更新) ついに和訳版も出たようだ。

ファイナンス機械学習とその原著はこちら。

本編

第1回のスライドでは、 Marcos Lopez de Prado氏が、これでもかと計量経済学や計量経済モデルをdisっている。終盤ではコロナ危機の教訓がまとめられている。 以下では適宜、スライドのページ数との対応を示しながら書いていく。

キーポイント (p2)

  • 金融データ分析は、伝統的な計量経済学(Econometrics)では対応できない:
    • データ構造が複雑:非線形、閾値、階層的
    • データが数値ではない/構造化されてない:
      • カテゴリカル、テキスト、画像、音声
    • データが高次元で変数が多いのに、取得できるデータ数が少ない
  • 計量経済モデルの問題点:
    • p値、いわゆる統計的有意性に依存:
      • ASA(アメリカ統計学会)の勧告に違反
    • そもそもの設計として、in-sampleの分散をadjudicate するだけであり、out-of-sampleの値を予測するようにはデザインされていない
    • 変数探索 (variable search) からモデルの特定化(specification search)を探り出せない
    • 訓練データとテストデータの双方について、過学習(overfitting) に注意が払われていない
  • 計量経済学は自然科学から道具を借りてきており金融の問題には対応できない
  • 結果として、計量経済モデルによる投資戦略には間違いが多い

計量経済学について (p3-p8)

  • (ここは計量経済学の歴史が書かれているだけなので飛ばしていいだろう。)
  • ポイントは以下の通り。
  • 計量経済学は、
    • 多変量線形回帰モデル (重回帰)の話に偏っている
    • エントロピー、クラスタリング、分類、グラフ理論、パターン認識、数値計算法、といったトピックが抜け落ちている
    • もともと生物統計学や計量化学から道具を借りてきたのだが、それらの分野では上記の新しいトピックを取り上げているのに、計量経済学はそれにキャッチアップできていない

落とし穴1:構造化データ

計量経済学が対象とするデータはイマイチ (p10)

  • 有益なデータの多くは機械学習には向くが計量経済学には向いていない。
  • 有益なデータの特徴:
    • 非構造化データが多い
    • 高次元データ:変数の数>観測データ数
    • スパースでノイジーなデータ
    • 階層的な関係:
      • エージェントのネットワーク、依存関係のクラスタリング
  • 計量経済学で使われるデータ変換は、定常性を作る代償として多くの情報を失っている。
  • 結果として、有益でないデータをモデル化しているだけ。

非構造化データの例 (p11)

  • テスラ社のニュース記事からセンチメントを抽出した例
    • ・青のバーが日次の合計記事数
    • ・緑のバーがポジティブセンチメントの記事数
    • ・赤のバーがネガティブセンチメントの記事数
  • 株価リアクションはセンチメントの偏りから来ている。
  • 機械学習アルゴリズムは、センチメントの偏りに対して株価が最も敏感になるタイミングを特定するよう、学習させることができる。

落とし穴2:相関/ベータ

金融の相関は極めてノイジー (p13)

計量経済学では相関からノイズを除去しないので、シグナルではなくノイズにサポートされた結論が出てしまい、それは間違った結論である。

相関と外れ値 (p14)

クロスセクションの分析は外れ値の影響を大きく受けてしまう。
全体の5%が外れ値となっているデータを使って、通常のOLSとRANSACアルゴリズムで割高・割安を分類すると、結果を誤ったのはOLSが34%、RANSACが1%

相関/ベータでは依存関係のほとんどを見落とす (p15)

  • 相関係数は線形の依存関係にしか使えない。
    • 金融では非線形の依存関係がほとんど
    • 外れ値の影響を大きく受けてしまう
    • 多次元正規分布くらいにしか使えない
    • レジームスイッチの閾値に応用できない
  • 例として、V字型のデータで相関係数を求めるとほぼゼロになるが、明らかに依存関係はある。
    • 実際、NMI (Normalized Mutual Information) を求めると0.64と十分大きい値になる。

落とし穴3:分散のAdjudicationと因果性の誤り

投資にとっては目標設定が間違い (p17)

機械学習ではout-of-sampleの予測が目標。
回帰は投資には使えない。計量経済学は生物学から道具を借りてきたので、out-of-sampleの予測は目標ではない。

因果性の誤り (p18)

  • 計量経済学の誤り:
    • 相関と因果性の混同
    • 予測と因果性の混同
    • 因果性と、Grangerの因果性の混同
  • いわば、「月に行った人はみんなチキンを食べている」→「チキンを食べれば月に行ける」というのと同様の誤り

落とし穴4:Specification – Interaction Search

モデルの定式化の誤り(p20-p22)

  • 計量経済モデルとして、 以下の項が入っているものを考える。
    • 説明変数が\(x_1, x_2\)の2つで、
    • 3つ目の項としてその積:\(x_1 x_2\)
  • この場合、以下の2つの主張を同時にしようとしている。
    • (1)予測変数は \(x_1, x_2\)の2つ
    • (2)関数形:線形だが、 \(x_1 x_2\)の項が入っている
  • 金融システムの複雑さを考えると、これら2つを同時に考えるのは非現実的。
  • モデル開発者が、
    • 現象を説明する変数を予想するだけ、ならマシだが
    • (積の項なども含め)関数形を事前に特定するのは困難
  • 実際、変数として\(x_1, x_2\)の2つを選択するのは合っていたとしても、積の項\(x_1 x_2\)を定式化の段階で落としてしまうと、大きな予測誤差が出てしまう。
  • 伝統的な計量経済モデルはデータの構造を学習しない。
    • 事前にモデル開発者が正しい定式化をしていないと、間違った結論が出てしまう。
  • これに対して、機械学習モデルを使った場合を考える。
  • 具体例として、ブートストラップで1,000個のDecision Treeを作り、そのアンサンブルで予測してみる。
  • データの背後には積の項\(x_1 x_2\)があることをモデルに知らせていないのだが、与えられたデータから正しい定式化を学習できている。
  • out-of-sampleの予測値と実績値の相関は0.98まで上がった。この理由は、機械学習アルゴリズムは指示を受けることなく、データ構造を学習したから。

落とし穴5:p-値

p = 5%では、ほとんどの戦略が誤り (p24)

バックテストされる戦略で、稼げる確率が1%とする。有意水準5%、検出力80%、と標準的な仮定を置くと、1000個の戦略のうち58個が稼げる戦略と判定されるが、そのうち正しい戦略は8個しかなく、50個は誤りである。つまり86%は誤りである。

その理由は、
・ 1000個の戦略のうち、
 1%つまり10個が正しい戦略、
 99%つまり990個が間違った戦略
・正しい10個の戦略のうち、
 検出力が80%なので、
 ・10個の80%つまり8個が稼げる戦略と
  判定される(OK)
 ・残りの20%つまり2個は稼げない戦略と
  判定されてしまう
・有意水準5%なので、
 間違いの990個の戦略のうち、
 ・990個の5%つまり50個は稼げる戦略と
  判定されてしまう
 ・990個の95%つまり940個は稼げない戦略と
  判定される(OK)

実際は、ファイナンス分野での誤り率は
86%よりもっと高い。なぜなら、
・何回もテストするので、全体として
 有意水準は5%より大きくなっている
・競争が激しい世界なので、新しい
 取引戦略の発見確率は1%より低い
・戦略の有効期限は短い。
・モデル定式化の間違いや、
 他の仮定も満たしていないと、
 さらに誤り率は高くなる

計量経済学は「p < 5%」時代で止まっている (p25)

  • 金融経済学での発見のほとんどは「p < 5%」の議論に依拠しているが、
    • p-値では以下のように、強い(非現実的な)仮定が置かれている。
      • モデルの定式化が正しい
      • regressorが互いに相関していない
      • 誤差項がホワイトノイズで正規分布に従う、など
    • マルチコ(多重共線性)はよくあることで、その場合、p-値はロバストに推定できない
    • p-値は、\(p[ X>x|H_0 ]\)、を評価している。
      • つまり帰無仮説が正しい前提で閾値を超える確率だが、これは見当違い。
      • 本当に気にすべきは、\(p[ H_1|X>x ]\)で、つまり、閾値を超えたという条件の下で、対立仮説が正しい確率が知りたい。
    • p-値はout-of-sampleではなくin-sampleでの重要性を評価している
  • p-値をもとにして発見された「統計的に有意な」ファクターには、以下のようなものがある:
    • バリュー
    • モメンタム
    • クオリティ
    • サイズ
    • キャリー
    • リクィディティ
    • ディフェンシブ、など
  • p-値の誤用があまりにも広まってしまったため、アメリカ統計学会 (ASA)は、p-値を統計的有意性の指標として使うのは今後控えるよう発表した (リンク)。
  • これによってここ数十年間の計量経済学の研究 (factor zoo) に疑問が投げかけられた。

p-値に関する実験 (p26)

  • ランダム二値分類問題を考える。
  • 特徴量は40、そのうち5つが有益、30が冗長、残りの5つはノイズとする。
    • 有益な特徴量はラベル生成に使われるもの
    • 冗長な特徴量は、有益な特徴量からランダムに選び、正規分布に従うノイズを加えたもの
    • ノイズな特徴量は、ラベル生成に使われないもの
  • グラフの横軸はロジット回帰のp-値
  • 特徴量を縦軸方向に、p値が小さい順に並べる
  • 縦方向の点線が5%有意水準
  • このp-値は真実 (ground truth) を正確に表現できていない:
    • ノイズではない特徴量は35あるが、そのうち4つしか有意と判定されていない
    • ノイズな特徴量でもp-値が低いものも多く、比較的に上にランクされている
    • p-値が最も大きいものから数えて14もの特徴量が、ノイズではない(5つのノイズ特徴量が最下位付近に集まってほしいが、むしろノイズではない特徴量が最下位付近に集まってしまっている)

特徴量重要度の現代的なアプローチ (p27)

  • p値の代わりにMean Decrease Accuracy Method (MDA)を用いる:
    • 機械学習アルゴリズムを訓練データで学習させ、out-of-sampleの精度を求める
    • 一つの変数を取り除いて再学習させout-of-sampleの精度を求める
    • その変数を除いたことで、out-of-sampleの精度がどれくらい低下したかを確認
  • すると以下のことがわかる。
    • MDAはノイズを除去できている。ノイズ特徴量が最低にランクされている
    • ノイズ特徴量はMDA値がゼロなので重要でないとみなされている
    • 似た変数とクラスタリングすることで結果はさらに改善する(教師なし学習アプローチ)

落とし穴6:訓練データへの過学習

過学習には2種類ある (p29)

(1)訓練データへの過学習:
   モデルの定式化がフレキシブルすぎて、
   ノイズまで説明してしまう
(2)テストデータへの過学習:
   テストデータでのパフォーマンス
   によってモデルが選択されてしまう

・たいていの計量経済モデルは上記2つの
 過学習を特定できない
・機械学習ではそれができるような方法が
 開発されてきた

以下のような方法があるが、理想的には、
これらは同時に「 全て 」使うべき
・訓練データへの対応
  ・汎化誤差(人工データ)
    ・リサンプリング
    ・モンテカルロ
  ・アンサンブル
  ・正則化
    ・変数の数(LASSO)
    ・構造(early stopping, drop-out)
・テストデータへの対応
  ・Report all trials (number, variance)
    ・Deflated Sharpe Ratio / FWER
  ・汎化誤差(人工データ)
  ・リサンプリング(CPCV)
  ・モンテカルロ

アンサンブルの例:Bootstrap Aggregation (p30)

(1)母集団データから重複を許して
   ランダムサンプリング
(2)機械学習アルゴリズムを(1)で
   サンプリングしたデータに学習させる
(3)(2)を使って、(1)でサンプリング
   されなかったデータについて予測する
   (この予測誤差をout-of-bag errorという)
(4)(1)から(3)を繰り返す

このBootstrap aggregation (bagging)では
以下2つを達成できる
・予測誤差の分散を減らせる
・個別の推定が最低限正確なら、
 その組み合わせで予測した場合の精度は、
 個別の予測器の平均精度を上回る

落とし穴7:テストデータへの過学習

金融機関はどのようにリサーチを行っているか (p32)

  • 投資戦略を探しているとしよう。複数の計量経済モデルで回帰を行い、高いシャープレシオ(3を超えるものもあった)が得られた。
  • この結果をボスに見せ、その戦略を数週間paper-tradeで試すことに。幸い、paper-tradingのパフォーマンスはバックテストと同様に良好で、investment committeeで承認された。
  • $100mを集めたが残念なことに、まもなく20%もやられてしまった。
  • 宣伝通りのパフォーマンスを上げることはできず、閉鎖されてしまった。
  • 何が起きたのか?

ファイナンスで最も重要なグラフ (p33)

  • y軸は最大シャープレシオ(max{SR})、x軸は試行回数を表す
  • 色が明るいほど、その結果が得られる確率が高まる。点線は期待値を表す。
  • 例えば、バックテストを1,000回(x軸)しかやっていない場合でさえ、たとえ真のシャープレシオがゼロだったとしても、最大シャープレシオの期待値(E[max{SR}])は3.26もある。
  • バックテストで最もパフォーマンスがよかったものでも、真値 (ground truth)を表現できているわけではない(選択バイアス)。
  • バックテストを、理論で示唆された2つや3つの定式化に対して制限しても、解決策にはならない。これは確証バイアス (confirmation bias) の一種。
  • 計量経済モデルによる投資のほとんどが失敗する理由は、アセットマネジャーやアカデミックジャーナルが、選択バイアスと確証バイアスをコントロールしていないから(p29を見よ)。

解決策

計量経済学の限界を克服するには (p35)

  • 計量経済学の分析におけるどの手順についても、それに対応する機械学習の道具が存在する。
  • 目標設定:
    • 計量経済学:
      • in-sampleの分散判定 (variance adjudication)
    • 機械学習:
      • out-of-sample の予測
  • 可視化:
    • 計量経済学:
      • 時系列プロット、散布図、ヒストグラム
    • 機械学習:
      • t-SNE, networks, treemaps
  • 外れ値認識:
    • 計量経済学:
      • Winsorizing, trimming,Dixon’s Qテストなど
    • 機械学習:
      • アノマリー判定手法、RANSAC
  • 特徴量抽出:
    • 計量経済学:
      • PCA
    • 機械学習:
      • Kernel-PCA, LDA, biclustering
  • 回帰:
    • 計量経済学:
      • 代数的なモデル
    • 機械学習:
      • Neural Network, SVR, GA, regression treesなど
  • 分類:
    • 計量経済学:
      • ロジット、プロビット
    • 機械学習:
      • RF, SVC, k-NNなど
  • 特徴量重要度
    • 計量経済学:
      • p-値
    • 機械学習:
      • MDI, MDAなど
  • 過学習対策
    • 計量経済学:
      • forward selection, backward elimination, stepwise 
    • 機械学習:
      • 正則化、bagging, boosting, early stopping, drop-outなど
  • 当てはまり具合
    • 計量経済学:
      • 修正R^2 (in-sample)
    • 機械学習:
      • Out-of-sample (cross-validated)

クオンツがCOVID-19から得た3つの教訓

背景

  • コロナ危機でクオンツファンドの多くが多額の損失を被った
    • マーケットニュートラル戦略のファンドも同様
    • マーケットメイカーは平均以上の利益を得た。なぜか?
  • この危機から得られた教訓は?
    • 1.forecastingではなくnowcastingをしよう
    • 2.作るべきは取引戦略ではなくて理論
    • 3.どのレジームでも同じ戦略を使う、というのは避けよう

教訓1: forecastingではなくnowcastingをしよう

予測 (forecasting) はもはや過去のもの

  • 予測モデルは構造化データを使い、長期の予測をしている
  • クオンツ戦略は価格の予測に注力してきた
    • 時系列の価格ダイナミクスを使う
      • (statistical arbitrage, CTAsなど)
    • クロスセクションデータを使う
      • (asset pricing, ファクター投資など)
  • 予測は過去データと将来の結果の統計的な関係を拠り所としている
    • そのような関係が常に成り立つわけではない
    • 以前は、使えるデータが限られており、情報開示の頻度も多くなかったため、予測は理にかなっていた
  • ファクター投資は、少数のファンダメンタルなファクターによって割高・割安を判定するが、ファクターが更新される頻度が少ない。したがって、このようなモデルは市場環境の変化に素早く適応できない。

これからはnowcasting

  • nowcastingは非構造化データを使う
    • 直接測定:変数を直接観測する
      • (例えば、インフレ予想に使う商品たち)
    • 短期予測:変数は直接観測されない
      • (例えば、駐車場の混み具合で収入を推定)
  • forecastingと比べた利点
    • 直接測定の結果は常に正しい
      • (統計的な関係を仮定しない)
    • 短期予測は長期予測より統計的に信頼できる
    • いずれも、何百万もの直近データを推定に使う

nowcastingは自然科学にも応用されている

地震の早期警告システム(数秒前に警告)

nowcastingのファイナンスでの例

  • forecastingはただの推測を数式で書き直したもの
    • nowcastできるものをforecastしてはいけない
  • ・ファイナンスでのnowcastの例:
    • インフレ率:オンラインで物価を集めた方が、計量経済モデルの予測より正確
    • 流動性制約:市場参加者のFIX messages
    • 小売収益:衛星画像で、駐車場の満車率やEメール領収書
    • 工場生産:貨物運賃、自動車生産数、電力消費

Nowcastingの実際

  1. 因果のメカニズムを特定
    • 例:失業が消費、したがって小売の収益に影響する
  2. そのメカニズムをマネタイズする投資戦略を開発
    • 例:その地域で最も雇用している小売業者をロング、その地域で最も解雇している小売業者をショート
  3. 上記1.を完全に把握できると仮定して、上記2.のパフォーマンスを評価する
    • その地域の週次の失業保険申請者数を公表前に知れる、と仮定してシャープレシオを評価する
  4. 上記1.に関する完璧なナレッジをnowcast推定値で置き換える
    • 衛星写真で見える交通量を使い、活動をnowcastする
    • 2019年4月の朝鮮半島の衛星写真。ここから輸送車の交通量を使い、穀物生産量を評価、石油生産量を予測

ブラックスワンのnowcasting

  • コロナ危機の急落が始まる前に、ウイルスが中国のサプライチェーンを破壊しているという警告サインはたくさんあった。
  • 2020/1/23に中国が一部の省をロックダウンした。これにより工場需要が急激に減退し、銅など多くのコモディティ価格が急落。しかし米国株価は上昇していた。
  • オーダーフローの不均衡をnowcastすることにより、マーケットメーカーが急落で損失を出すことは非常に少なかった。
  • forecastしていた人にとってはブラックスワンだったが、nowcastしていた人にとってはホワイトスワンだった。
  • 今やクオンツは未来予測よりもnowcastを使いこなせないといけない

教訓2:開発すべきは取引戦略ではなくて理論

Backtest Overfitting は至る所で見られる

  • 正しく行えば、バックテストは役立つ検証方法
  • 何万回もヒストリカルでバックテストを行うことにより、有望な投資戦略を見つけようとする、ということが 一般的に行われている
    • バックテストの結果最もパフォーマンスのよかった戦略だけを報告し、あたかも1回しかトライしてないかのようにパブリッシュする
  • この選択バイアスの結果、パブリッシュされた投資戦略のほとんどは誤り
    • この事実から、期待通りのパフォーマンスをあげられていないファンドは多く、直近のコロナ危機でクオンツファンドがやられたのは一例に過ぎない

バックテストは検証であり、調査ではない

  • 科学においてテストは、仮説を否定しようとする場合に決定的な役割を果たす
  • しかしファイナンスではバックテストがそれとは反対の目的で使われている
    • つまり、取引戦略を開発するために使われている
  • この誤用によって循環的な議論が生じる
    • 1.何千もの取引戦略をバックテストする
      • (例:factor zoo)
    • 2.最もパフォーマンスが良かった戦略を仮説として提示する
      • (例:低P/E銘柄を買う)
    • 3.仮説をパブリッシュし、その仮説を見つける際に用いたのと同じバックテストをエビデンスとして提示する

取引戦略ではなく理論を開発せよ

  • バックテストなしに理論を開発すべき
    • 例えば、特徴量重要度の分析方法で、過学習にロバストなもの等
  • functional theoryでは因果関係を掘り起こすことによって現象を説明する
  • 因果関係の妥当性をテストしなければならない
    • バックテスト(選択バイアスを踏まえて調整)だけではなく、
    • 提案された理論のインプリケーションに対して、エビデンスを集めなければならない
  • 取引戦略のバックテストでは十分ではない
  • コロナ危機を2010年のフラッシュクラッシュと同様のマーケットパニックと説明する理論があったとしよう。
    • 両方のイベントで稼げる戦略をバックテストしても、理論の検証にはならない。
    • よりよい検証は、両方の日について、パニック的な動きのエビデンスをFIXメッセージ上で探すことである。

教訓3:どのレジームでも同じ戦略を使う、というのは避けよう

聖杯探しはムダ

  • どのマーケットレジームでもパフォーマンスをあげる投資戦略を探しがち
    • 例:リスクプレミア、リスクパリティ、OTMプットのロング
  • 本当に「どのレジームでも使える」戦略が存在する可能性はほとんどない
  • なぜなら、
    • マーケットは適応的
    • 投資家は間違いから学ぶ
  • たとえどのレジームでもワークする戦略が存在したとしても、特定のレジームでワークする戦略全体のうち、割合としてはほんのわずかしかない可能性が高い

レジームに固有の投資戦略

  • アセットマネジャーは特定のマーケットレジームで最適にワークする投資戦略を探すことに注力すべき
    • 各レジームは特定のデータ生成プロセス(DGP)で特徴付けられる
    • 現在の観測値が各DGPから生じている確率をnowcastでき、その確率を使って最適戦略のアンサンブルポートフォリオを構築できる
  • ・このアプローチは市場環境の変化に合わせてファンドを適応させられる
    • 例えば、 ブラックスワンが現れた際にnowcastingを使って、 リスクオン(リスクプレミア)からリスクオフ(OTMプットのロング)に戦略をスイッチする

ナレッジグラフ

  • ナレッジグラフは複数の基準で企業を関連付ける。
    • 基準としては例えば、ビジネスの結び付き、サプライチェーン、競合相手、産業セクター、共有持分など。
  • ナレッジグラフでは、レジームに関するフォワードルッキングな情報を読み取れる
  • この情報を使うことにより、Theory-Implied Correlation Matrices (TICs) を求められる
  • TICは、理論的な(フォワードルッキングな)依存関係の構造と、ヒストリカルに得られる経験的な観測を融合する
    • これによってリスクモデルは即座に更新され、ノイズが削減できる

参考文献

ファイナンス機械学習の続編とも言われている、同じ著者の新しい本はこちら。まだ翻訳版は出ていないようだ。

ファイナンス機械学習とその原著はこちら。

あわせて読みたい

【感想あり】おすすめのUdemy動画講座:機械学習・データサイエンスに必要な数学とPythonの入門編【随時更新】 | Quant College

【感想あり】おすすめのUdemy動画講座:機械学習編【随時更新】 | Quant College

金融工学関連でおすすめの本:まとめ(目次) | Quant College

LIBOR廃止とRFR移行のまとめ | Quant College

新作note『CVA入門』をリリースしました。 | Quant College

関連記事

続きの第2回の記事はこちら。