Transformerにおいて、入力列と途中までの出力列を参照できるようにすれば品質を上げられるというのが基本的な考え方だけど、ニューラルネットワークは直接的には固定サイズの入力しか受け付けられない。そこで入力列や途中までの出力列の各要素について、そのときの状況に応じた重みつき和を計算してこれをニューラルネットワークの入力とすることで固定サイズの入力にできる、というのがAttentionの考え方で合ってる?
Transformerにおいて、入力列と途中までの出力列を参照できるようにすれば品質を上げられるというのが基本的な考え方だけど、ニューラルネットワークは直接的には固定サイズの入力しか受け付けられない。そこで入力列や途中までの出力列の各要素について、そのときの状況に応じた重みつき和を計算してこれをニューラルネットワークの入力とすることで固定サイズの入力にできる、というのがAttentionの考え方で合ってる?
No replies yet.