Исследование преобразователей изображения и языка для понимания глаголов