MainPage/Computer Vision/Lecture/5-3 RAW
语音识别:Youtube 转文本
断句与标点:chatGPT 4o
翻译:chatGPT 4o
Следующий рассмотренный нами алгоритм кластеризации носит название OPTICS. Полное название на русском языке звучит как “Порядок точек для обнаружения кластерной структуры”. Это алгоритм нахождения кластеров пространственных данных на основе плотности. Данный алгоритм похож на DBSCAN, но его основная идея заключается в избавлении от одной из главных проблем DBSCAN — проблемы обнаружения содержательных кластеров данных, имеющих различные плотности.
我们接下来讨论的聚类算法叫做OPTICS。其全称为“基于密度的聚类结构的顺序点”。这是一个基于密度的空间数据聚类算法。该算法类似于DBSCAN,但其主要思想是解决DBSCAN的一大问题,即检测不同密度的数据聚类的问题。
Для того чтобы решить данную задачу, точки для кластеризации упорядочиваются так, что пространственно близкие точки становятся соседними в упорядочении. Кроме того, для каждой точки запоминается специальное расстояние, определяющее плотность, которую следует принять для кластера, чтобы точки принадлежали одному кластеру. Это представлено в виде дендрограммы, и сам принцип вычисления расстояния отражен на слайде.
为了实现这一目标,聚类点按顺序排列,使得空间上接近的点在排序中也成为邻居。此外,为每个点记录一个特殊的距离,用于确定应该接受的密度,以使点属于同一个聚类。这在树状图中有所表示,计算距离的原理在幻灯片中有所体现。
Подобно DBSCAN, OPTICS требует два параметра: параметр Epsilon, который описывает максимальное расстояние или радиус окрестности, и параметр, обозначающий минимальное количество точек, требующихся для образования одного кластера. Точка P является основной точкой, если по меньшей мере данное минимальное количество точек находится в ее Epsilon-окрестности. Данное определение соответствует определению из алгоритма DBSCAN, но в отличие от DBSCAN, алгоритм OPTICS рассматривает также точки, которые являются частью более плотных кластеров, так что каждой точке назначается основное расстояние, которое описывает расстояние до ближайшей точки в упорядочении по номеру, равному минимальному числу точек для образования одного кластера.
与DBSCAN类似,OPTICS需要两个参数:参数Epsilon,用于描述最大距离或邻域半径,以及表示形成一个聚类所需的最少点数的参数。如果至少有给定数量的点在点P的Epsilon邻域内,那么点P就是一个核心点。该定义与DBSCAN中的定义相同,但与DBSCAN不同,OPTICS算法还考虑属于更高密度聚类的点,因此每个点都有一个核心距离,描述到排序中下一个最小点数的点的距离。
Формула для расчета расстояний, используемых в алгоритме OPTICS, представлена на слайде. Расстояние от точки A до точки B равно либо расстоянию между A и B, либо основному расстоянию точки P, в зависимости от того, какая величина больше. Благодаря модернизации подсчета расстояний, преодолевается основная проблема DBSCAN. Как основное, так и достижимое расстояние не определены, если нет достаточно плотного кластера, что регламентируется численным значением Epsilon. Если взять достаточно большой Epsilon, данная ситуация никогда не произойдет, но тогда любой запрос Epsilon-соседства вернет весь набор кластеризуемых точек, что приведет к времени работы алгоритма в O(n^2).
OPTICS算法中使用的距离计算公式在幻灯片中有所展示。点A到点B的距离等于A和B之间的距离或点P的核心距离,取两者中的较大值。通过距离计算的现代化处理,克服了DBSCAN的主要问题。如果没有足够密集的聚类,那么核心距离和可达距离都未定义,这由Epsilon的数值进行规制。如果取一个足够大的Epsilon,这种情况将不会发生,但这时任何Epsilon邻域查询将返回整个点集,这会导致算法的运行时间达到O(n^2)。
Завершая секцию ненейросетевых подходов к сегментированию изображений, мы рассмотрим один интересный частный случай — SLIC (Simple Linear Iterative Clustering), метод решения задачи суперпикселизации. Суперпиксельная сегментация реализует разбиение изображения на множество мелких фрагментов или суперпикселов, представляющих собой относительно однородные группы расположенных рядом пикселов. Каждый суперпиксел потенциально является атомарным регионом изображения, то есть все входящие в него пикселы рассматриваются при дальнейшей обработке как единое целое. При этом суперпикселы не обязательно должны иметь правильную форму. Естественно, всегда имеется определенное число ошибок, допускаемых при стремлении разбить изображение на однородные фрагменты.
结束对非神经网络图像分割方法的讨论,我们将讨论一个有趣的特例——SLIC(Simple Linear Iterative Clustering),用于解决超像素化问题。超像素分割实现将图像分割成许多小碎片或超像素,这些超像素是相对同质的、彼此相邻的像素群。每个超像素潜在地是图像的原子区域,即进一步处理时将所有包含在其中的像素视为一个整体。超像素不一定必须具有规则形状。自然地,总是存在一定数量的错误,在试图将图像分割成同质片段时被允许。
Само название SLIC является аббревиатурой от Simple Linear Iterative Clustering и представляет собой модифицированный алгоритм кластеризации K-means, в котором осуществляется минимизация функции ошибки кластеризации. Основное отличие SLIC от классического K-means заключается в ограничении области поиска: пиксель для каждого сегмента ищется не во всем изображении, а в небольшой части, пропорциональной среднему размеру сегмента. Пример описания алгоритма, а также его работы представлен на слайде. В качестве меры близости используется взвешенная сумма евклидовых расстояний по координатам и трем цветовым компонентам, как во многих методах сегментирования путем классической кластеризации, рассмотренных нами ранее.
SLIC这一名称是“Simple Linear Iterative Clustering”的缩写,是一种改进的K-means聚类算法,其中进行聚类误差函数的最小化。SLIC与经典K-means的主要区别在于限制搜索区域:每个段的像素不是在整个图像中搜索,而是在与段的平均大小成比例的小区域中搜索。算法的描述及其工作示例在幻灯片中展示。作为接近度度量,使用坐标和三个颜色分量的加权欧氏距离之和,这在许多我们之前讨论的经典聚类方法中都有所应用。
Таким образом, задача суперпиксельной сегментации сводится к задаче оптимизации значения той или иной целевой функции. При этом результат суперпиксельной сегментации может существенно отличаться в зависимости от используемого подхода. Выбор того или иного алгоритма зависит от вида решаемой задачи и соответственно выдвигаемых к нему требований.
因此,超像素分割问题归结为优化某个目标函数值的问题。超像素分割的结果可能会因所用方法的不同而显著不同。算法的选择取决于要解决的问题类型及其相应的要求。
Теперь от методов сегментирования путем общей кластеризации в пространстве, объединяющем пространственную и цветовую информацию, перейдем к специальным глубоким нейросетевым архитектурам для сегментации изображений. Первый из рассмотренных будет Mask R-CNN. Концепция, лежащая в основе Mask R-CNN, прошла поэтапное развитие через архитектуры нескольких промежуточных нейросетей, решавших разные задачи, которые были рассмотрены на предыдущих лекциях. Вероятно, самый простой способ разобраться в принципах функционирования данной сети — это вспомнить то, о чем мы говорили на лекциях про детектирование, ведь Mask R-CNN принадлежит, а точнее является надстройкой над архитектурой Faster R-CNN, путем добавления еще одной ветки, которая предсказывает положение маски, покрывающей найденный объект, и таким образом решает уже задачу instance segmentation. Маска представляет собой просто прямоугольную матрицу, в которой единица на некоторой позиции означает принадлежность соответствующего пиксела объекту заданного класса, а ноль означает, что пиксел объекту не принадлежит.
现在我们将从使用空间和颜色信息的总体聚类方法,转向用于图像分割的特定深度神经网络架构。首先讨论的是Mask R-CNN。Mask R-CNN的概念经过多个中间神经网络架构的逐步发展,这些架构解决了不同的问题,在之前的讲座中已讨论过。最简单的理解此网络工作原理的方法可能是回顾我们在讲座中讨论的检测内容,因为Mask R-CNN是建立在Faster R-CNN架构之上的,通过增加一个预测覆盖找到对象的蒙版的分支,从而解决了实例分割问题。蒙版只是一个矩形矩阵,其中某个位置上的1表示相应像素属于指定类别的对象,而0表示该像素不属于对象。
По мнению авторов архитектуры нейросетевой сегментации, разработанная архитектура условно разделяется на свёрточную сеть вычисления признаков изображения, называемую Backbone, представляющую собой объединение частей, отвечающих за предсказание охватывающей рамки, классификацию объекта и определение его маски. Вот функция для них общая и включает три представленных на слайде компонента. Выделение маски происходит отдельно для каждого класса без предварительного знания, что изображено в регионе, и потом просто выбирается маска класса, победившего в независимом классификаторе. Утверждается, что такой подход более эффективен, чем опирающийся на априорное знание класса.
根据神经网络分割架构作者的观点,所开发的架构可以分为卷积特征提取网络(称为Backbone),其包括负责边界框预测、对象分类和蒙版确定的部分。它们的功能是通用的,包含三个幻灯片中所展示的组件。蒙版的提取是为每个类别单独进行的,而不事先知道区域中是什么,然后仅选择在独立分类器中获胜的类别的蒙版。据称,这种方法比依赖于先验类别知识的方法更有效。