Home Технологии Глубокое обучение без учителя выявляет семантическое распутывание в отдельных нейронах нижневисочных участков лица | DeepTech

Глубокое обучение без учителя выявляет семантическое распутывание в отдельных нейронах нижневисочных участков лица | DeepTech

0
Глубокое обучение без учителя выявляет семантическое распутывание в отдельных нейронах нижневисочных участков лица
 | DeepTech

Наш мозг обладает удивительной способностью обрабатывать визуальную информацию. Мы можем взглянуть на сложную сцену одним взглядом и за миллисекунды разобрать ее на объекты и их атрибуты, такие как цвет или размер, и использовать эту информацию для описания сцены простым языком. В основе этой, казалось бы, легкой способности лежат сложные вычисления, выполняемые нашей зрительной корой, которые включают в себя получение миллионов нервных импульсов, передаваемых от сетчатки, и преобразование их в более значимую форму, которую можно отобразить в простом языковом описании. Чтобы полностью понять, как этот процесс работает в мозге, нам необходимо выяснить, как семантически значимая информация представляется при срабатывании нейронов в конце иерархии визуальной обработки, и как такое представление может быть получено на основе необученный опыт.

Чтобы ответить на эти вопросы в контексте восприятия лиц, мы объединили усилия с нашими сотрудниками из Калифорнийского технологического института (Дорис Цао) и Китайской академии наук (Ле Чанг). Мы выбрали лица, потому что они хорошо изучены в нейробиологическом сообществе и часто воспринимаются как «микрокосм распознавания объектов». В частности, мы хотели сравнить реакции отдельных корковых нейронов на участках лица в конце иерархии визуальной обработки, записанные нашими сотрудниками, с недавно появившимся классом так называемых «распутывающих» глубоких нейронных сетей, которые, в отличие от обычных «распутывающих» глубоких нейронных сетей, Системы «черного ящика» явно нацелены на то, чтобы их можно было интерпретировать для людей. «Распутывающая» нейронная сеть учится отображать сложные изображения в небольшое количество внутренних нейронов (называемых скрытыми единицами), каждый из которых представляет один семантически значимый атрибут сцены, например цвет или размер объекта (см. Рисунок 1). В отличие от глубоких классификаторов «черного ящика», обученных распознавать визуальные объекты посредством биологически нереалистичного внешнего контроля, такие распутывающие модели обучаются без внешнего обучающего сигнала с использованием самоконтролируемой цели реконструкции входных изображений (генерация на рисунке 1) из их изображений. выученное скрытое представление (полученное посредством вывода на рисунке 1).

Распутывание было предположил быть важным в сообществе машинного обучения почти десять лет назад как неотъемлемый компонент для создания более эффективное использование данных, передаваемый, справедливыйи творческий системы искусственного интеллекта. Однако в течение многих лет построение модели, которая могла бы распутать ситуацию на практике, ускользало от поля зрения. Первая модель, способная сделать это успешно и надежно, называется β-ВАЭбыл разработан путем принятия вдохновение из нейробиологии: β-VAE учится прогнозирование собственных входных данных; для успешного обучения требуется такой же визуальный опыт, как и с чем сталкиваются младенцы; и его выученное скрытое представление отражает свойства, известные зрительному мозгу.

В нашем новая бумагаМы измерили степень, в которой распутанные единицы, обнаруженные с помощью β-VAE, обученного на наборе данных изображений лиц, похожи на реакции отдельных нейронов в конце визуальной обработки, записанные у приматов, смотрящих на одни и те же лица. Нейронные данные были собраны нашими сотрудниками под строгим контролем со стороны Институциональный комитет Калифорнийского технологического института по уходу и использованию животных. Когда мы провели сравнение, мы обнаружили нечто удивительное: казалось, что несколько распутанных единиц, обнаруженных с помощью β-VAE, вели себя так, как если бы они были эквивалентны подмножеству реальных нейронов аналогичного размера. Присмотревшись, мы обнаружили сильное взаимно однозначное соответствие между настоящими нейронами и искусственными (см. рисунок 2). Это отображение было намного сильнее, чем у альтернативных моделей, включая глубокие классификаторы, которые ранее считались современными вычислительными моделями визуальной обработки, или созданную вручную модель восприятия лиц, считающуюся «золотым стандартом» в нейробиологическом сообществе. Мало того, единицы β-VAE кодировали семантически значимую информацию, такую ​​​​как возраст, пол, размер глаз или наличие улыбки, что позволило нам понять, какие атрибуты отдельные нейроны в мозге используют для представления лиц.

Если бы β-VAE действительно смог автоматически обнаруживать искусственные латентные единицы, которые эквивалентны реальным нейронам с точки зрения того, как они реагируют на изображения лиц, тогда должна быть возможность перевести активность реальных нейронов в их соответствующие искусственные аналоги и использовать генератор (см. рисунок 1) обученного β-VAE для визуализации того, что представляют собой лица реальных нейронов. Чтобы проверить это, мы предоставили приматам новые изображения лиц, которых модель никогда не видела, и проверили, сможем ли мы их визуализировать с помощью генератора β-VAE (см. рисунок 3). Мы обнаружили, что это действительно возможно. Используя активность всего 12 нейронов, мы смогли генерировать изображения лиц, которые были более точной реконструкцией оригиналов и имели лучшее визуальное качество, чем те, которые создавались с помощью альтернативных глубоких генеративных моделей. И это несмотря на то, что альтернативные модели, как известно, являются лучшими генераторами изображений, чем β-VAE в целом.

Наши выводы обобщены в новая бумага предполагают, что зрительный мозг можно понять на уровне одного нейрона, даже на самом конце его иерархии обработки. Это противоречит распространенному мнению, что семантически значимая информация является мультиплексируется между большим количеством таких нейронов, каждый из которых остается в значительной степени неинтерпретируемым индивидуально, мало чем отличаясь от того, как информация кодируется в полных слоях искусственных нейронов в глубоких классификаторах. Мало того, наши результаты показывают, что вполне возможно, что мозг учится поддерживать нашу способность без усилий осуществлять зрительное восприятие, оптимизируя задачу распутывания. Хотя β-VAE изначально был разработан под вдохновением от принципы нейробиологии высокого уровняПольза распутанных представлений для разумного поведения до сих пор была продемонстрирована в первую очередь в сообщество машинного обучения. В соответствии с богатой историей взаимовыгодного взаимодействие нейробиологии и машинного обученияМы надеемся, что последние открытия в области машинного обучения теперь смогут вернуться к нейробиологическому сообществу, чтобы изучить преимущества распутанных представлений для поддержки интеллекта в биологических системах, в частности, в качестве основы для отвлеченные рассужденияили обобщаемый и эффективный обучение задаче.

LEAVE A REPLY

Please enter your comment!
Please enter your name here