GPTはtransformerのdecoderのみ使っているらしい。

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

Decoderのみのtransformerの元論文。こちらでは長い入力を扱うために入力を分割したり複数のkeyとvalueを圧縮したりしてる。

https://arxiv.org/pdf/1801.10198.pdf

Reply to this note

Please Login to reply.

Discussion

No replies yet.