Ouvi empresário, que propoe (em publico) investir em treinar IA com morphemas do portugues.
Morphemas: partes minimas de palavras com significado. e.g. o radical de um verbo, sem a conjugação, que seria outro morphema. e.g. andaremos = and + aremos.
IA-textuais são sequenciadoras de morphemas, não de palavras. Porque o espaço combinatório diminui. Arrendondando, são 2K verbos em 'ar', e 100 conjugações. Ao invés de combinar 200K verbos conjugados, a IA combina 2K verbos + 100 conjugações, ou seja, 2100 itens ao invés de 200K.
Idéia válida, mas não sei se é possível 'plugar' as camadas inferiores retreinadas com morphemas do portugues em uma rede maior. Por um lado, talvez apenas resolvam um subproblema na esperança que algum peixe grande se interesse treinar em uma boa IA em portugues.
Por outro lado, não é porque o FB gastou 5 bi que outros precisam gastar o mesmo. Não só pode-se mirar em algo menor, como também houveram melhorias nos modelos desde o paper original "Attention is all you need", e hoje-se pode-se fazer mais com menos.