Как работает Vision Transformer (ViT) за 10 минут: изображение стоит 16х16 слов