LSTM (Long Short-Term Memory) とは【わかりやすく】

LSTMの数式

LSTMのWikipediaの数式を直感的に理解する。

各変数の直観的な意味

等式が5本あるが、上から順に次のような意味がある。

  1. 忘却ゲート(forgetのf):
    過去の情報のうち、いらないものをどれくらい忘れるかを表す。(実際には、fがゼロに近いほど多くのものを忘れるので、数値の大小と意味が逆になっている点に注意。)
  2. 入力ゲート(inputのi):
    新しく入ってきた情報のうち、必要なものをどれくらい将来に受け継ぐかを表す。
  3. 出力ゲート(outputのo):
    長期記憶であるcのうち、どれくらいの割合を短期記憶であるhに活用するかを表す。
  4. セル状態(cellのc):
    長期的な記憶を表す。過去から累積してきた情報と、直近で新しく入ってきた情報を組み合わせて作られる。
  5. 隠れ状態(hiddenのh):
    短期的な記憶を表す。長期記憶であるcのうち、一部を抽出することで作られる。

5本の数式の直観的な意味

以上を踏まえて5本の数式の意味を直感的に理解する。

  1. 1本目の式の\(f\)は、シグモイド関数なのでゼロから1までの値をとる。ゼロに近いほど過去の情報を忘れる。忘れる度合いを表している。
    1. これは4本目の\(c\)の式からわかる。4本目のcの式の前半から、\(f\)がゼロに近いほど1時点前のセル状態を忘れることがわかる。\(f\)が1に近いほど1時点前のセル状態を次の時点に受け継ぐ(つまり覚えておく)。
  2. 2本目の式の\(i\)は、シグモイド関数なのでゼロから1までの値をとる。1に近いほど新しい情報を将来に受け継ぐ。新しく入ってきた情報をどれだけ将来に受け継ぐかを表している。
    1. これは4本目の\(c\)の式からわかる。4本目の\(c\)の式の後半は、新しく入ってきた情報のうち、\(i\)の割合だけを長期記憶である \(c\) に残す、ということを行っている。
  3. 3本目の式の\(o\)は、シグモイド関数なのでゼロから1までの値をとる。\(o\)が1に近いほど、長期記憶が短期記憶に多く活用される。
    1. これは5本目の\(h\)の式からわかる。長期記憶である\(c\)のうち\(o\)の分だけが、短期記憶である\(h\)に使われている。
  4. 4本目の式のcは、長期記憶を表す。なぜ長期記憶かというと、一時点前の\(c_{t-1}\)から\(c_t\)が作られており、過去の自分自身が将来に受け継がれているからである。過去の情報が累積されているので長期的に残している記憶に対応する。
    1. 4本目の \(c\) の式は、前半過去の情報の一部を忘れずに引き継ぐことを表しており、後半新しく入ってきた情報の一部を長期記憶に残しておくことを表している
  5. 5本目の式の \(h\) は、短期記憶を表す。なぜ短期記憶かというと、\(h_t\)は\(h_{t-1}\)と直接の関係がないからである。 \(h_t\) を求める際に \(h_{t-1}\) が使われていない。この\(h_{t-1}\)は、その他4本の式すべてに使われているが、\(h_t\)の計算には使われない。その場限りでしか使用されず、次の時点に引き継がれないので、短期的な記憶に対応する。
    1. 5本目の式から、\(h\)は、長期記憶である \(c\) のうち、 \(o\) の割合だけが抽出されて作られる。

あわせて読みたい

再現率/適合率とは?違い/覚え方【わかりやすく】 | Quant College

第一種過誤/第二種過誤とは?違いと覚え方をわかりやすく | Quant College

主成分分析と因子分析の違いと使い分け【わかりやすく】 | Quant College

【簡単にわかりやすく】棄却サンプリングとは【乱数生成方法】 | Quant College

『ゼロから作るDeep Learning 3』のコードを全て読んでみた(1) | Quant College

ディープヘッジングとは | Quant College

ディープヘッジングの概要 | Quant College

【論文紹介】ニューラルネットワークのオプション評価への応用【サーベイ論文の翻訳】 | Quant College