MainPage/Computer Vision/Lecture/7-2 RAW
语音识别:Youtube 转文本
断句与标点:chatGPT 4o
翻译:chatGPT 4o
Утром ещё один оператор поиска контурных особенностей изображений — оператор Айверсона (по фамилии одного из создателей) — был опубликован в 1995 году. Он был призван улучшить действия существующих линейных операторов для распознавания границ путём добавления логических проверок на существование границы. Это позволило уменьшить число ошибочно распознанных линий без потери чувствительности. Основным преимуществом данного алгоритма является значительное уменьшение количества ошибочно положительных откликов, то есть распознавания несуществующих границ, по сравнению с ранее разработанными алгоритмами. Кроме того, оператор Айверсона позволяет чётко разделять между собой три вида границ: края, светлые линии и тёмные линии. Светлые и тёмные линии отличаются либо приростом контраста, либо убыванием. В основе данного алгоритма лежит семейство так называемых логических линейных операторов, которые объединяют в себе теорию линейных операторов и алгебру логики. Условия проверки, содержащиеся в данных операторах, делятся на два различных класса: нормальные условия, или условия перпендикуляров, то есть условия, призванные распознать категорию и найденную границу, и тангенциальные условия, или условия касательных, то есть условия, гарантирующие непрерывность найденной границы.
早上,另一种用于图像轮廓特征检测的算子——艾弗森算子(以其中一位发明者的姓命名)——于1995年发表。它旨在通过增加对边界存在的逻辑检查来改进现有的线性算子,以识别边界。这减少了误识别线条的数量,而不会降低灵敏度。该算法的主要优点是显著减少了误报,即识别到不存在的边界的数量,与之前开发的算法相比。此外,艾弗森算子能够清晰地区分三种类型的边界:边缘、亮线和暗线。亮线和暗线的区别在于对比度的增加或减少。该算法的基础是所谓的逻辑线性算子家族,它们结合了线性算子理论和逻辑代数。这些算子中的检查条件分为两类:正常条件或垂直条件,即用于识别类别和找到边界的条件;以及切线条件,即用于确保找到的边界连续性的条件。
Общий вид двумерного логического линейного оператора представлен на слайде. Здесь x и y являются координатами в локальной ортонормированной системе координат изображения, то есть стандартными координатами на нашем прямоугольном изображении. Оператор ψ является декартовым произведением двух одномерных логических линейных операторов. Оператор T, или тангенциальный оператор, выполняет проверку на непрерывность рассматриваемой границы, а оператор N — это нормальный оператор, он выполняет проверку на существование границы, где индекс задаёт просматриваемую границу: P для светлых линий, N для тёмных, E для краёв светлых или тёмных областей. Оператор T является идентичным для всех типов границ. Нормальный оператор для светлых линий имеет вид, представленный на слайде. Также можно ознакомиться с операторами тёмных линий и нормальными операторами краёв. Также на слайде представлен вид тангенциального оператора. Линейными составляющими представленных логических линейных нормальных операторов являются выражения, использующие производные Гаусса, и с помощью операций свёртки линейных составляющих операторов функций входного сигнала с изображением. Алгоритм Айверсона позволяет проверять локальные условия существования границ на определённом участке изображения.
二维逻辑线性算子的通用形式如幻灯片所示。这里,x和y是图像局部正交坐标系中的坐标,即我们矩形图像上的标准坐标。算子ψ是两个一维逻辑线性算子的笛卡尔乘积。算子T,即切线算子,用于检查所考虑边界的连续性;而算子N是正常算子,它用于检查边界的存在,其中索引指定查看的边界:P表示亮线,N表示暗线,E表示亮区或暗区的边缘。T算子对所有类型的边界都是相同的。亮线的正常算子如幻灯片所示。也可以查看暗线和边缘的正常算子。幻灯片上还展示了切线算子的形式。所展示的逻辑线性正常算子的线性组成部分是使用高斯导数的表达式,通过线性算子的卷积操作将输入信号的函数与图像进行卷积。艾弗森算法允许检查图像某一区域上边界存在的局部条件。
Рассмотрим ещё один примечательный метод поиска контурных особенностей на изображении — оператор Канни. Он же детектор границ Канни или алгоритм Канни представляет собой оператор обнаружения границ изображения, был разработан Джоном Канни, как нетрудно догадаться, и использует многоступенчатый алгоритм для обнаружения широкого спектра границ на изображениях. Канни изучил математическую проблему получения фильтра, оптимального по критериям выделения, локализации и минимизации нескольких откликов одной границы. Он показал, что искомый фильтр является суммой четырёх экспонент. Он также показал, что этот фильтр может быть хорошо приближен первой производной Гаусса. Более того, Канни ввёл понятие подавления максимумов. Данная идея широко используется в современных методах искусственного интеллекта, но в работе Канни данная идея используется в том контексте, когда пикселями границ объявляются пикселы, в которых достигается локальный максимум градиента в направлении вектора градиента. Хотя работа Канни была проведена на заре компьютерного зрения, детектор границ Канни до сих пор является одним из лучших детекторов. Кроме особенных частных случаев, трудно найти детектор границ, который работал бы существенно лучше, чем детектор Канни. Целью Канни было разработать оптимальный алгоритм обнаружения границ, удовлетворяющий трём критериям. Во-первых, это хорошее обнаружение: Канни трактовал это свойство как повышение отношения сигнала к шуму. Во-вторых, это хорошая локализация, то есть правильное определение положения границы. В-третьих, алгоритм должен был обеспечивать единственный отклик на одну границу. Из всех этих критериев затем строилась целевая функция стоимости ошибок, минимизация которой находит оптимальный линейный оператор для свёртки с изображением. Алгоритм детектора границ Канни не ограничивается вычислением градиента сглаженного изображения. В контуре границы оставляются только точки максимума градиента изображения. Немаксимальные точки, лежащие рядом с границей, удаляются. Здесь также используется информация о направлении границы для того, чтобы удалять точки именно рядом с границей и не разрывать саму границу вблизи локальных максимумов градиента. Затем с помощью двух порогов удаляются слабые границы. Фрагмент границы при этом обрабатывается как целое: если значение градиента где-нибудь на прослеживаемом фрагменте превысит верхний порог, то этот фрагмент остаётся. Также допустимые границы и в тех местах, где значение градиента падает ниже этого порога, до тех пор, пока оно не станет ниже нижнего порога. Если же на всём фрагменте нет ни одной точки со значением больше верхнего порога, то он удаляется. Такой гистерезис позволяет снизить число разрывов в выходных границах. Включение в алгоритм Канни шумоподавления, с одной стороны, повышает устойчивость результатов к наличию шума, а с другой стороны, увеличивает вычислительные затраты и приводит к искажению и даже потере подробностей границ. Но это неизбежная плата: так, например, таким алгоритмом скругляются углы объектов и разрушаются границы в точках соединения.
再看另一种值得注意的图像轮廓特征检测方法——Canny算子。Canny算子,也称为Canny边缘检测器或Canny算法,是一种图像边界检测算子,由John Canny开发。它使用多步骤算法来检测图像上的广泛边界。Canny研究了通过提高检测、定位和最小化单个边界多重响应来获得最佳滤波器的数学问题。他证明,所需滤波器是四个指数的和。他还证明,这个滤波器可以通过高斯的第一导数很好地近似。此外,Canny引入了非极大值抑制的概念。这一概念在现代人工智能方法中广泛使用,但在Canny的工作中,这一概念用于在边界像素为梯度方向的局部最大值的地方宣布为边界像素。尽管Canny的工作是在计算机视觉的早期进行的,Canny边缘检测器仍然是最佳检测器之一。除了特殊的具体情况,很难找到比Canny检测器效果明显更好的边缘检测器。Canny的目标是开发一种满足三个标准的最佳边界检测算法。首先是良好的检测:Canny将此属性解释为提高信噪比。其次是良好的定位,即正确确定边界位置。第三,算法应保证对单一边界的唯一响应。根据所有这些标准,构建了一个错误成本函数,通过最小化该函数找到用于与图像卷积的最佳线性算子。Canny边缘检测器的算法不仅限于计算平滑图像的梯度。在边界轮廓中,只保留图像梯度的极大值点。邻近边界的非极大值点被删除。在这里,还使用边界方向的信息,以删除恰好在边界旁边的点而不破坏接近梯度局部极大值的边界本身。然后,通过两个阈值删除弱边界。此时边界片段作为一个整体处理:如果梯度值在跟踪片段的任何地方超过上限,则保留该片段。同样,只要梯度值不低于下限,在值下降到该阈值以下的地方,边界仍然有效。如果整个片段上没有任何点的值超过上限,则删除该片段。这种滞后效应减少了输出边界的中断数量。将噪声抑制引入Canny算法,一方面提高了结果对噪声存在的抗扰度,另一方面增加了计算成本,并导致边界细节的失真甚至丢失。但这是不可避免的代价:例如,角点对象被平滑处理,并且连接点的边界被破坏。
Итак, рассмотрим подробнее основные шаги алгоритма Канни. На первой стадии производится сглаживание, то есть размытие изображения для удаления шума. Оператор Канни использует фильтр, который может быть хорошо приближен к первой производной Гаусса. Пример ядра данного фильтра изображён на слайде. На второй стадии осуществляется поиск градиентов. Границы отмечаются там, где градиент изображения приобретает максимальное значение. Они могут иметь различные направления, поэтому алгоритм Канни использует четыре фильтра для обнаружения горизонтальных, вертикальных и диагональных рёбер в размытом изображении. Угол направления вектора градиента округляется и может принимать значения 0°, 45°, 90°, 135°. На стадии подавления немаксимумов только локальные максимумы отмечаются как границы. Далее осуществляется двойная пороговая фильтрация: потенциальные границы определяются порогами. Далее производится трассировка областей неоднозначности. Итоговые границы определяются путём подавления всех краёв, не связанных с определёнными сильными границами. Перед применением детектора обычно преобразуют изображение в монохромное представление, чтобы уменьшить вычислительные затраты. Этот этап характерен для многих методов обработки изображений и, в частности, для методов выделения границ. Заметим, что рассмотренные механизмы получения контурных признаков на выходе представляют нам карты, размер которых примерно совпадает с разрешением исходного изображения. Однако для получения сжатого векторизованного представления характеризующих признаков, которые удобно передавать стандартные движки классификации и кластеризации, pipeline которых можно увидеть на слайде, удобно использовать гистограммы и другие статистические сжатые представления, посчитанные поверх распределения низкоуровневых контурных признаков.
那么,让我们更详细地看看Canny算法的主要步骤。在第一阶段进行平滑处理,即通过模糊图像来去除噪声。Canny算子使用的滤波器可以很好地近似为高斯的一阶导数。此滤波器的核示例如幻灯片所示。在第二阶段进行梯度搜索。边界在图像梯度达到最大值的地方标记。它们可能具有不同的方向,因此Canny算法使用四个滤波器来检测模糊图像中的水平、垂直和对角线边缘。梯度方向角度四舍五入,可以取值0°、45°、90°、135°。在非极大值抑制阶段,只有局部极大值标记为边界。接下来进行双重阈值过滤:通过阈值确定潜在边界。然后进行模糊区域跟踪。通过抑制所有与特定强边界无关的边界,确定最终边界。在应用检测器之前,通常将图像转换为单色表示,以减少计算成本。这一阶段是许多图像处理方法的特点,特别是边界提取方法的特点。值得注意的是,所讨论的输出轮廓特征获取机制为我们提供了与原始图像分辨率大致一致的地图。然而,为了获得压缩的矢量化特征表示,便于传递给标准分类和聚类引擎(它们的管道如幻灯片所示),方便使用基于低级轮廓特征分布计算的直方图和其他统计压缩表示。
На одной из предыдущих лекций мы рассматривали алгоритм построения дескриптора изображений на основе гистограммы, вычисляющей статистическую оценку ориентации градиента, то есть мы рассматривали HOG-дескриптор. Помимо гистограмм могут быть использованы хэш-функции, к примеру, которые могут быть основаны либо на вычислениях и сборе статистики по каким-то низкоуровневым примитивам, например, контурам, или же особенным точкам, находящимся в определённых регионах изображения. Такие подходы мы рассмотрим далее. Так, они могут быть основаны на прямом вычислении хэш-значений из сырого или же чуть трансформированного представления исходного изображения. Такие подходы мы также рассмотрим на наших лекциях далее. Нельзя также не отметить ещё один вид низкоуровневых признаков. Помимо контуров, часто хорошими характеристическими особенностями изображений являются особые точки, к примеру, уголки. Мы рассматривали алгоритмы поиска углов на изображениях в контексте создания системы трекинга объектов на основании ключевых точек. Поэтому здесь мы рассмотрим лишь возможное применение данных низкоуровневых особенностей в контексте получения глобального дескриптора изображения в виде некоторой хэш-функции. Суть подхода довольно проста: мы разбиваем.
在之前的讲座之一中,我们讨论了基于直方图构建图像描述符的算法,该直方图计算梯度方向的统计估计,即我们讨论了HOG描述符。除了直方图外,还可以使用哈希函数,例如,这些函数可以基于对某些低级原语(例如轮廓)的计算和统计收集,或位于图像特定区域的特殊点。我们将在后续课程中讨论这些方法。例如,它们可以基于从原始或稍微转换后的图像表示直接计算哈希值。我们也将在后续课程中讨论这些方法。还需要注意的是另一种低级特征。除了轮廓,通常图像的良好特征是特殊点,例如角点。我们在基于关键点的对象跟踪系统创建上下文中讨论了角点检测算法。因此,在这里,我们仅讨论这些低级特征在获得全局图像描述符(如某种哈希函数)中的潜在应用。方法的本质非常简单:我们将图像分割。