MainPage/Computer Vision/Lecture/5-4 RAW
语音识别:Youtube 转文本
断句与标点:chatGPT 4o
翻译:chatGPT 4o
Одна из основных модификаций, возникших из-за необходимости предсказывать маску, это изменение процедуры регионов интереса. Дело в том, что карта признаков, полученная свёрточным кодировщиком, имеет меньший размер, чем исходное изображение. И регион, охватывающий на изображении целочисленное количество пикселей, не получается отобразить в пропорциональный регион карты с его численным количеством признаков. Проблема решалась просто округлением дробных значений до целых. Такой подход нормально работает при выделении охватывающей рамки, но вычисленная на основе таких данных маска получается слишком неточной.
由于需要预测掩码,产生了主要的修改之一是更改兴趣区域的处理程序。问题在于,卷积编码器生成的特征图比原始图像的尺寸要小。而在图像上覆盖整数像素的区域无法映射到特征图中具有相同数量特征的比例区域。这个问题通过将小数值四舍五入为整数来解决。这种方法在提取边框时效果良好,但基于这些数据计算的掩码却不够精确。
В противоположность этому, Regions of Interest Align не использует округление, и все числа остаются действительными. А для вычисления значений признаков используется билинейная интерполяция по четырём ближайшим целочисленным точкам. В оригинальном документе разница поясняется рисунком, представленным на слайде. Имеется в виду разница между Regions of Interest Pooling и Regions of Interest Align. Здесь штриховкой обозначена карта признаков, а непрерывное отображение на карту признаков региона кандидата с исходной фотографии. В данный регион должно попасть четыре группы для Max Pooling по четырём признакам, обозначенным на рисунке точками. В отличие от процедуры Regions of Interest Pooling, которая за счёт округления просто бы выравнивала регион под целочисленным координатам, Regions of Interest Align оставляет точки в их текущих местах, но вычисляет значение каждой из них при помощи билинейной интерполяции по четырём ближайшим признакам.
与此相反,Regions of Interest Align(兴趣区域对齐)不使用四舍五入,所有数值都保持为实数。而特征值的计算是通过对四个最近的整数点进行双线性插值。在原始文档中,差异通过幻灯片中的图示进行解释。这指的是Regions of Interest Pooling(兴趣区域池化)和Regions of Interest Align(兴趣区域对齐)之间的差异。这里用阴影表示特征图,而连续映射到特征图上的是候选区域从原始照片中提取的。该区域应包含四组特征用于Max Pooling(最大池化),这些特征在图中用点表示。与通过四舍五入将区域对齐到整数坐标的Regions of Interest Pooling(兴趣区域池化)程序不同,Regions of Interest Align(兴趣区域对齐)保持点在其当前位置,但通过对四个最近特征进行双线性插值计算每个点的值。
Помимо высоких результатов в задачах instance-сегментации и object detection, Mask R-CNN оказалась пригодной для определения поз людей на фотографии, то есть задачи human pose estimation. Ключевой момент здесь это выделение опорных точек, таких как левое плечо, правый локоть, правое колено и любых других, которые интересуют при определении опорных точек скелета человека, по которым можно нарисовать каркас с позиции человека. Для определения опорных точек нейросеть обучают таким образом, чтобы она выдавала маски, в которых только один пиксель (то есть та самая точка, которую мы ищем) имела значение единицы, остальные — ноль. В то же время сеть тренируется выдавать такие карты для каждой из редактируемых точек скелета человека. Таким образом решается задача сплитизации.
除了在实例分割(instance segmentation)和物体检测(object detection)任务中表现出色外,Mask R-CNN还适用于确定照片中的人体姿态(human pose estimation)。关键在于识别关键点,例如左肩、右肘、右膝等其他感兴趣的点,以确定人体骨架的关键点,并绘制出人体姿态。为了识别这些关键点,神经网络经过训练以生成掩码,其中只有一个像素(即我们要找的那个点)值为1,其余为0。同时,网络还会生成每个关键点的掩码图,从而解决了分割任务。
В экспериментах по Mask R-CNN, наряду с обычной свёрточной сетью на основе ResNet в качестве backbone, также проводились исследования целесообразности использования Feature Pyramid Network (FPN). С этой концепцией мы познакомились в одной из предыдущих лекций. Они показали, что применение FPN в backbone даёт Mask R-CNN прирост как в точности, так и в производительности. Концепцию пирамидальных признаков мы рассматривали в одной из предыдущих лекций. Назначение FPN, как и пирамид изображений, в улучшении качества детектирования объектов с учётом большого диапазона возможных размеров. FPN карты признаков, извлечённые последовательными слоями свёрточной сети с уменьшающей размерностью, рассматриваются как некая иерархическая пирамида, называемая bottom-up. При этом карты признаков нижних и верхних уровней пирамиды обладают своими преимуществами и недостатками: первые имеют высокое разрешение и низкую семантическую обобщающую способность, вторые наоборот. Архитектура FPN позволяет объединить достоинства верхних и нижних слоёв при помощи добавления top-down path и lateral connections. Данные механизмы мы рассматривали на наших предыдущих лекциях. Для этого карта каждого вышележащего слоя увеличивается до размера нижележащего, и их содержимое поэлементно складывается. В итоговых предсказаниях используются результирующие карты всех уровней. Увеличение размера карты верхнего уровня делается самым простым методом — методом ближайшего соседа.
在Mask R-CNN的实验中,除了使用ResNet作为backbone的普通卷积网络,还研究了使用Feature Pyramid Network (FPN)的可行性。我们在之前的讲座中介绍了这一概念。他们的研究表明,将FPN应用于backbone可以提高Mask R-CNN的精度和性能。我们在之前的讲座中讨论了金字塔特征的概念。FPN的目的是改善对象检测的质量,考虑到对象可能具有的各种尺寸。FPN特征图由卷积网络的连续层提取,并形成一个被称为自下而上的分层金字塔。低层和高层特征图各有优缺点:前者具有高分辨率但语义概括能力低,而后者则相反。FPN架构通过增加自顶向下路径(top-down path)和横向连接(lateral connections)来结合高层和低层的优势。我们在之前的讲座中讨论了这些机制。每个上层特征图被扩大到下层特征图的尺寸,并逐元素相加。最终预测中使用所有层的结果特征图。上层特征图的尺寸增大是通过最简单的方法——最近邻插值法完成的。
Теперь рассмотрим архитектуру, которая в своё время сделала прорыв в области сегментирования биомедицинских изображений. Как нетрудно догадаться, это U-Net. Эта архитектура свёрточной нейросети предназначена для сегментирования изображений. Как уже говорилось ранее, первоначально для биомедицинских. Архитектура сети представляет собой последовательность слоёв свёртки и пуллинга, которые сначала уменьшают пространственное разрешение картинки, а потом увеличивают его, предварительно объединив с данными картинки и пропустив через другие свои свёртки. Таким образом, сеть выполняет роль своеобразного фильтра. Если говорить более подробно, то архитектура сети состоит из сужающего пути слева и расширяющего пути справа, представленного на слайде. Сужающийся путь — это типичная архитектура свёрточной нейронной сети, и он состоит из повторного применения двух свёрток с ядром 3x3, за которыми следует ReLU активация и операция max pooling для понижения разрешения. На каждом этапе понижающей дискретизации каналы свойств удваиваются. Каждый шаг в расширяющемся пути состоит из операции повышающей дискретизации карты свойств, за которой следует свёртка с ядром 2x2, которая уменьшает количество каналов признаков, объединяя с соответствующим образом обрезанной картой свойств из стягивающегося пути, и двух свёрток с ядром 3x3, за которыми следует ReLU активация. Обрезка необходима из-за потери граничных пикселей при каждой свёртке. Для обучения сети может использоваться коэффициент Dice, показывающий меру сходства площади правильно отмеченных сегментов, то есть отношение площади пересечения к площади объединения. Сеть обучается методом стохастического градиентного спуска на основе входных изображений и соответствующих им карт сегментации.
现在让我们看看一个在生物医学图像分割领域取得突破的架构。很容易猜到,这就是U-Net。这是一种用于图像分割的卷积神经网络架构。正如前面所说,最初是为生物医学图像设计的。网络架构由一系列卷积层和池化层组成,首先减少图像的空间分辨率,然后在与原始图像数据合并并通过其他卷积层后增加分辨率。因此,该网络充当了一种特殊的滤波器。如果更详细地说,网络架构由左侧的收缩路径和右侧的扩展路径组成,如幻灯片所示。收缩路径是典型的卷积神经网络架构,由重复应用的两个3x3卷积层组成,后跟ReLU激活和max pooling操作以降低分辨率。每个降采样步骤中,特征通道数量加倍。扩展路径的每个步骤包括特征图的升采样操作,随后是2x2卷积层以减少特征通道数量,与适当修剪的来自收缩路径的特征图结合,并后跟两个3x3卷积层和ReLU激活。修剪是必要的,因为每次卷积都会丢失边界像素。网络的训练可以使用Dice系数来衡量正确标记的分割区域的相似度,即交集面积与并集面积之比。网络通过基于输入图像及其对应的分割图使用随机梯度下降方法进行训练。
Архитектура свёрточной сети U-Net проста и популярна, очень хорошо показывает себя в соревнованиях по машинному обучению, может использоваться не только для сегментации, но и для детектирования объектов на изображении. Для U-Net характерно достижение высоких результатов в различных реальных задачах, особенно в биомедицинских приложениях, использовании небольшого количества данных для достижения хороших результатов. Таким образом, U-Net универсальна и может использоваться для любой разумной задачи сегментации изображений. Высокая точность достигается при условии надлежащего обучения, подходящего набора данных и правильного выбора гиперпараметров к обучению.
U-Net卷积网络架构简单而受欢迎,在机器学习竞赛中表现出色,不仅可用于分割,还可用于图像中的对象检测。U-Net在各种实际任务中(尤其是在生物医学应用中)表现出高效能,并且在使用少量数据时也能取得好成绩。因此,U-Net是通用的,可用于任何合理的图像分割任务。高精度在适当的训练、合适的数据集和正确选择超参数的情况下可以实现。
Отметим, что для задач сегментирования изображений напрашивается использование механизма внимания. Как нетрудно догадаться, именно такие глубокие архитектуры показывают наилучшие по точности сегментации результаты на различных бенчмарках на сегодняшний день. Первая рассмотренная нами архитектура, использующая внимание, будет ResNeSt. ResNeSt совмещает использование channel-wise attention вместе с параллельными ветвями вычислений и residual connections внутри одного унифицированного блока, который представлен на слайде и является основной архитектурной составляющей данной глубокой сети. Данная архитектура занимает лидирующие позиции в ряде бенчмарков сегментации изображений.
需要注意的是,对于图像分割任务,注意力机制的使用是显而易见的。如前所述,这些深度架构在各种基准测试中显示出最佳的分割精度。我们将讨论的第一个使用注意力机制的架构是ResNeSt。ResNeSt结合了通道级注意力和并行计算分支,并在统一块内使用残差连接。该架构在多个图像分割基准测试中占据领先地位。
Ещё одна архитектура, которая на данный момент демонстрирует высокие результаты на ряде сегментационных бенчмарков, является HRNet. Название говорит само за себя. В данной архитектуре сочетаются и разномасштабная обработка, и внимание. Механизм внимания здесь используется для объединения разномасштабных предсказаний на уровне пикселей, как показано на слайде. Как в случае с детектированием объектов, ключевым понятием для составления метрики качества и функции потерь является Intersection over Union (IoU). Однако здесь IoU считается не между предсказанным и ground truth bounding box, как в случае с задачей детектирования, а между предсказанной и ground truth маской объекта. Далее данная мера может усредняться по классам и вообще считаться в различных вариациях.
另一个目前在多个分割基准测试中表现优异的架构是HRNet。顾名思义,这个架构结合了多尺度处理和注意力机制。这里的注意力机制用于在像素级别结合多尺度预测,如幻灯片所示。与对象检测任务一样,质量度量和损失函数的关键概念是交并比(Intersection over Union, IoU)。然而,这里的IoU是计算预测掩码与真实掩码之间的,而不是预测边界框与真实边界框之间。然后,该度量可以按类别平均,并在各种变体中计算。
На этом лекция закончена. Спасибо за внимание.
讲座到此结束。谢谢大家的关注。