Что такое Юнет? Как это связано с глубоким обучением?

Нейронные сети

Что такое Юнет? Как это связано с глубоким обучением? | DeepTech

DEEPTECH

July 17, 2023

Введение

Давайте шагнем в мир передовых технологий и узнаем, как сегментация изображений революционизирует область биомедицины!

Сегментация изображений в биомедицинской области имеет решающее значение по ряду причин. Это помогает идентифицировать и разделять различные структуры или объекты на изображении, что необходимо для точной диагностики и планирования лечения. С помощью сегментации изображения практикующие врачи могут точно изолировать и анализировать определенные области интереса на изображении, что приводит к лучшему пониманию основной анатомии и процессов заболевания. Использование алгоритмов глубокого обучения при сегментации изображений в области биомедицины повысило точность и скорость анализа изображений, что сделало его ценным инструментом для медицинских работников.

В этой статье мы рассмотрим удивительные нюансы одной из самых популярных моделей сегментации биомедицинских изображений на основе глубокого обучения, UNet, и то, как она революционизирует медицину. Так что берите кофе и вперед!

Что такое Юнет?

UNet — это популярная архитектура глубокого обучения, которая широко используется для сегментации изображений. Модель UNet была специально разработана для решения задач сегментации биомедицинских изображений и позволила добиться замечательных результатов в нескольких реальных приложениях.

UNet был впервые представлен в 2015 году Олафом Роннебергером и др. в “U-Net: сверточные сети для сегментации биомедицинских изображений». С момента создания было несколько итераций UNet++, 3D сеть, Трансформер-UNetи сейчас UNet 3+включая подключаемые модули для специалистов, не занимающихся машинным обучением, например этот ИзображениеJ. Неудивительно, что за этой популярной моделью последовало множество улучшений и адаптаций с тех пор, как она завоевала признание. Грандиозная задача компьютерного автоматизированного обнаружения кариеса при прикусной рентгенографии на ISBI 2015и Вызов по отслеживанию ячеек на ISBI 2015. Для сегментации изображений UNet — один из лучших вариантов искусственной нейронной сети.

Юнет – это…

+ Сквозная глубокая сверточная нейронная сеть

+ Предназначен для задач сегментации изображений

+ Используется в нескольких реальных приложениях

UNet превосходит…

+ Небольшие наборы размеченных биомедицинских данных (~30)

+ Быстрый анализ (<1 сек.)

+ Сегментация при соприкосновении объектов

В этой статье будет представлен обзор UNet, включая его архитектуру и ее отношение к глубокому обучению.

Читайте также: Роль ИИ в распространении вакцин

Понимание UNet

Одна из проблем сегментации биомедицинских изображений заключается в том, что сбор данных часто обходится дорого. Рентгеновские изображения, изображения поджелудочной железы, 2-фотонные изображения и т. д. — все они используют довольно дорогое оборудование и накладные расходы, поэтому сбор объема данных, необходимых для большинства моделей глубокого обучения, становится финансовой проблемой. При сегментации изображения вы берете некоторое необработанное изображение. данные и попытайтесь найти по контуру или выделению важную часть изображения, которую вы ищете. Например, выделение рака на рентгенограммах легких.

UNet решает эту проблему, создавая информационный конвейер, который сжимается, а затем расширяется. Изображение передается в сеть, которая затем вычисляет карту сегментации (т. е. контур или выделенную область, соответствующую целям на входе).

Архитектура UNet предназначена для сохранения пространственной информации исходного изображения при одновременном снижении пространственного разрешения функций за счет операций среднего пула и пошаговой свертки. Это еще одна полезная функция UNet, поскольку биомедицинские изображения часто имеют очень высокое разрешение, что делает их анализ менее затратным в вычислительном отношении.

Еще одна интересная особенность UNet заключается в том, что он предназначен для обработки различий в целевых границах и изменяемых целях. Это делает его отличным вариантом для биомедицинских изображений, когда в данных много неоднородностей.

Изображение различных сегментов биомедицинских изображений из оригинальной статьи UNet Роннебергера, 2015 г.

Что такое модель UNet?

Модель UNet — это то, что мы называем глубокой полносвязной сверточной нейронной сетью. Он состоит из сети кодера и сети декодера. Сеть кодировщика отвечает за извлечение признаков из входного изображения, а сеть декодера отвечает за реконструкцию карты сегментации выходного слоя. Кодировщик и декодеры состоят из ряда сверточных операций с весами, представляющими многоканальные карты признаков.

Если вы не знакомы с процессом свертки, он включает в себя перемещение небольшого окна, называемого ядром свертки или фильтром, по изображению для выполнения набора математических операций в каждой позиции. Результатом операции свертки является преобразованное изображение, которое было отфильтровано для выделения отличительных признаков или шаблонов. В нейронных сетях пространство пикселей изображения передается через свертки, за которыми часто следует нелинейная активация, представляющая собой функцию, которая вводит нелинейность, позволяя сети моделировать сложные отношения и ускорять обучение.

UNet-архитектура

Архитектура UNet состоит из ряда блоков свертки и включает несколько слоев свертки, функции активации и слои объединения. Архитектура UNet также включает свертку с разделением по глубине, которая позволяет обрабатывать изображения с высоким пространственным разрешением. UNet обучается с использованием гибридной функции потерь, которая сочетает в себе кросс-энтропийную функцию потерь и функцию потерь с учетом границ.

Ниже приведена диаграмма, показывающая основные компоненты архитектуры UNet, взятая из Фрайбургский университет, кафедра компьютерных наук, Олаф Роннебергер.

Хотя архитектура может показаться сложной, на самом деле она довольно проста. Ниже я объясню структуру кодировщика-декодера.

Кодер

Изображения уменьшаются с использованием все меньших и меньших смежных сверточных блоков. Входное изображение превращается в выходную карту объектов после одного блока свертки, которая становится входной картой объектов для следующего блока.

Кодер UNet использует сложные свертки, также известные как расширенные свертки, которые используются для увеличения разрешения карт объектов, что позволяет более детально сегментировать изображения. Это достигается за счет увеличения эффективного поля зрения сверточных ядер, эффективного увеличения охвата карт признаков. Комбинируя использование пулов и сложных слоев свертки, UNet может эффективно сбалансировать разрешение и абстракцию карт объектов, обеспечивая более точную сегментацию изображений.

Расчет сверток выполняется как канальные свертки, или свертки по глубине. Каждый входной канал свернут с отдельными фильтрами, а функции каналов объединены для формирования выходных каналов. Это позволяет сети изучать сложные взаимосвязи между несколькими каналами информации в изображении, такими как цвет и текстура. Принцип, лежащий в основе этого, известен как свертка для слияния, где используются сверточные слои для объединения функций из нескольких масштабов или разрешений изображения. Этот процесс слияния помогает UNet захватывать как высокоуровневые, так и низкоуровневые функции изображения, что имеет решающее значение для точной сегментации изображения.

Чтобы сохранить более низкие требования к памяти и более быструю сходимость, модели UNet иногда используют так называемые модули свертки с разделением по глубине. В свертке с разделением по глубине операция пространственной свертки и операция поточечной свертки разделены и выполняются независимо. Это позволяет сократить количество требуемых параметров оператора свертки, делая модель легче и быстрее для обучения. Например, коэффициент расширения — это гиперпараметр, определяющий интервал между входными значениями, которые используются при расчете каждого выходного значения. Другими словами, он контролирует «восприимчивое поле» операции свертки.

После каждой свертки существует дополнительная структура, состоящая из среднего слоя объединения, который обычно используется в пути понижающей дискретизации (кодировщике) архитектуры UNet для уменьшения пространственного разрешения карт объектов. Взяв среднее значение нескольких соседних пикселей, слой среднего пула уменьшает объем вычислений, необходимых в последующих слоях, и уменьшает переоснащение. Также добавлен слой объединения пространственных пирамид для захвата контекстной информации в нескольких масштабах.

За объединяющим слоем следует остаточная структура, предназначенная для решения проблемы исчезающих градиентов в глубоких нейронных сетях, позволяющая напрямую добавлять входные данные к выходным данным каждого слоя в сети. Это помогает гарантировать, что сеть может научиться вносить небольшие корректировки во входные данные, а не изучать все сопоставление с нуля, что может быть сложно для очень глубоких сетей.

Декодер

По сути, декодер выполняет те же операции, что и кодировщик, только в обратном порядке, с некоторыми изменениями. Декодер повышает дискретизацию с помощью билинейной интерполяции, оценивая значения отсутствующих пикселей в изображении для построения карты сегментации. Это обеспечивает дискриминацию UNet на уровне пикселей, повышая точность.

Общий

Распределение значений пикселей в изображении может повлиять на производительность модели UNet при сегментации биомедицинских изображений. Хорошо спроектированная сеть UNet должна иметь возможность обрабатывать различные типы изображений с различным распределением значений пикселей, например, изображения с распределением Гаусса, Пуассона или экспоненциальным распределением.

Как это связано с глубоким обучением?

UNet сама по себе является моделью глубокого обучения. Модель UNet является примером того, как глубокое обучение можно использовать для задач сегментации изображений. Поскольку оригинальную статью Роннебергера по UNet цитировали более 56 000 раз, неудивительно, что несколько моделей приняли архитектуру UNet в качестве магистральной сети.

Один из интересных подходов заключается в том, что Пикс2Пикс, генеративно-состязательная сеть (GAN). GAN генерируют данные для некоторого целевого распределения, используя генератор и состязательную модель. Генератор в Pix2Pix построен на основе архитектуры UNet, так как карта сегментации хорошо подходит для флуктуирующих морфологических особенностей изображения.

Архитектура UNet часто используется в качестве базовой сети в нескольких трансформатор модели (популярные фреймворки для обработки естественного языка… похожие на основу ЧатGPT) для задач сегментации изображений в биомедицинской области. Некоторые примеры таких моделей трансформаторов включают в себя:

TransUNet – Это вариант UNet, в котором вместо обычных сверточных слоев в архитектуре UNet используется сеть преобразователя.
Внимание-UNet – Это еще один вариант, который использует механизмы внимания в дополнение к архитектуре UNet для лучшего захвата долгосрочных зависимостей в образе.
ТернаусНетВ2 – Это еще один вариант архитектуры UNet для обнаружения спутниковых изображений, который использует пропуск соединений для извлечения целей на уровне экземпляра.

Как указано выше, существует несколько итераций базовой архитектуры UNet. Общие улучшения в UNet включают:

Трехмерные полностью сверточные сети
двухканальная нейронная сеть
предварительная обработка матрицы совпадения уровней серого

Применение UNet в реальной жизни

Как вы уже могли догадаться, UNet применялся в нескольких реальных приложениях.

Ниже приведен список лишь нескольких приложений.

Наборы данных и задачи сегментации биомедицинских изображений:

Другие задачи компьютерного зрения:

Повышение резкости краев изображения в 2D-изображениях
Изображения дистанционного зондирования (спутниковые изображения)
Увеличение данных для дополнения наборов данных
Создание синтетических данных
Восстановление изображения
Классификатор на патчах изображений
Классификация клинических записей

Модель UNet добилась замечательных результатов в этих приложениях, особенно с точки зрения скорости и точности выполнения сегментации.

Читайте также: Введение в автоэнкодеры и распространенные проблемы и проблемы

Заключение

UNet — это мощная архитектура глубокого обучения, которая широко используется в задачах сегментации изображений. Его архитектура предназначена для сохранения пространственной информации исходного изображения при уменьшении пространственного разрешения функций. UNet основан на архитектуре кодер-декодер и обучается с использованием комбинации функций потерь и наборов данных для получения плотной классификации всего изображения. Приложения UNet для анализа медицинских изображений, дистанционного зондирования и компьютерного зрения демонстрируют его потенциал в реальных сценариях.