View on GitHub

ITMO-PE

My study notes about Program Engineering at University ITMO

MainPage/Computer Vision/Lecture/7-1 RAW

语音识别:Youtube 转文本
断句与标点:chatGPT 4o
翻译:chatGPT 4o

Сегодня мы поговорим об одной очень важной составляющей всех рассмотренных ранее задач компьютерного зрения, в принципе всех задач компьютерного зрения, которые мы рассмотрим в данном курсе.
今天我们将讨论之前所有计算机视觉任务中一个非常重要的组成部分,原则上也是我们将在本课程中探讨的所有计算机视觉任务中的重要组成部分。

Ввиду важности этой составляющей, мы поговорим о ней отдельно в сегодняшней лекции. Конечно, фич-инжиниринг можно сформулировать в качестве отдельной задачи, которая включает в себя постановку целей и функционального описания характеристик признаков, которые мы собираемся извлекать из той или иной картинки.
由于这一组成部分的重要性,我们将在今天的讲座中单独讨论它。当然,特征工程可以作为一个独立的任务来定义,它包括设定目标和功能描述我们将从图像中提取的特征的特性。

Но всё-таки фич-инжиниринг, как правило, сводится к обеспечению нужд какой-либо внешней задачи, отчего и зависят его параметры, то есть параметры извлекаемых характерных признаков и сами стратегии извлечения. Отметим, что одними из самых ярких иллюстраций важности фич-инжиниринга, то есть проектирования и разработки извлекаемых из изображений характеристических признаков, в компьютерном зрении являются задачи классификации и кластеризации изображений.
但是,特征工程通常是为了满足某个外部任务的需求,因此它的参数,即提取特征的参数和提取策略,都依赖于外部任务。值得注意的是,特征工程的重要性最显著的例子之一就是图像分类和聚类任务。

Эти задачи являются одними из самых распространенных задач компьютерного зрения и наиболее часто решаемых в том или ином контексте. Обе эти задачи, пайплайн которых представлен на слайде схематично, включают в себя стадию извлечения характеризующих признаков, для решения которой необходимо производить фич-инжиниринг, и стадию построения основных движков, которые уже выполняют непосредственно целевую задачу, но уже не по сырому изображению, а по извлеченным признакам.
这些任务是计算机视觉中最常见的任务之一,并且在各种背景下经常需要解决。这两个任务的流程图如幻灯片所示,都包括特征提取阶段,这需要进行特征工程,以及构建主要引擎的阶段,这些引擎执行具体的目标任务,但不是基于原始图像,而是基于提取的特征。

В рамках данной лекции мы сосредоточимся на различных видах характеризующих признаков и методах их получения из исходного изображения.
在本次讲座中,我们将重点介绍各种类型的特征及其从原始图像中提取的方法。

Понимание принципов построения и проектирования признаков напрямую влияет на качество решения рассматриваемых задач и, как правило, является одним из самых сложных и важных моментов в ходе решения рассматриваемых задач. Более того, получение численного описания изображения и понимание природы данного процесса является ключевым аспектом компьютерного зрения.
理解特征构建和设计的原则直接影响所讨论任务的解决质量,并且通常是解决这些任务过程中最复杂和重要的部分之一。此外,获得图像的数值描述和理解这一过程的本质是计算机视觉的关键方面。

Как уже было сказано, далее мы рассмотрим различные типы численных признаков, их семантику и методы их вычисления.
如前所述,接下来我们将探讨不同类型的数值特征,它们的语义及其计算方法。

Одним из самых простых для понимания типов характерных признаков изображения являются контурные характеристики. Поэтому для начала мы рассмотрим один очень простой для понимания оператор для извлечения информации о перепадах градиента на изображениях.
图像最简单易懂的特征之一是轮廓特征。因此,首先我们将介绍一个非常简单易懂的操作符,用于提取图像中梯度变化的信息。

Отметим, что контуры как раз характеризуются перепадами значения градиента. Как видно из приведенной на слайде иллюстрации, таким образом результатом применения оператора Собеля является двумерная карта перепадов градиента для каждой точки. Её можно обработать и показать как картинку, на которой участки с большой величиной градиента, в основном грани, будут видны как белые линии.
需要指出的是,轮廓正是通过梯度值的变化来描述的。如幻灯片所示,使用索贝尔算子的结果是每个点的二维梯度变化图。这个图像可以处理并显示为一张图片,其中梯度值大的区域,主要是边缘,将显示为白线。

Отметим, что это не единственный способ представления контуров. Они могут быть представлены непосредственно самой картой, как приведено на слайде, то есть изображением, на котором обозначены отличающимся от фона цветом пиксели, принадлежащие контуру, то есть произведено некоторое сегментирование контуров.
需要指出,这并不是表示轮廓的唯一方法。轮廓可以直接用图表示,如幻灯片所示,即图像中用不同于背景颜色的像素表示轮廓像素,即对轮廓进行了某种分割。

Также контуры могут быть представлены в виде некоторого аналитического списка сущностей, то есть, к примеру, списка позиций пикселов, принадлежащих определенному контуру.
轮廓还可以表示为某种分析实体列表,例如某个轮廓的像素位置列表。

Этот список пикселов может быть упорядочен определенным образом, например, для того, чтобы непрерывно строить изображение сегмента контура на карте.
这个像素列表可以按特定方式排序,例如用于连续构建轮廓段的图像。

Итак, оператор Собеля — это дискретный дифференциальный оператор, вычисляющий приближенное значение градиента яркости изображения.
因此,索贝尔算子是一种离散差分算子,用于计算图像亮度梯度的近似值。

Результатом применения оператора Собеля в каждой точке изображения является либо вектор градиента яркости в этой точке, либо норма этого вектора градиента яркости, в зависимости от того, что нам наиболее пригодно для решения внешней, то есть общей задачи, в рамках которой решается задача получения характеризующих признаков в виде контуров, представленных на изображении.
在图像的每个点应用索贝尔算子的结果是该点的亮度梯度向量或该点亮度梯度向量的范数,取决于我们为解决外部任务,即获取图像中特征轮廓表示的任务,最需要的是什么。

Оператор Собеля используется в области обработки изображений, в частности, часто применяется в алгоритмах выделения границ, то есть существуют ещё более высокоуровневые оболочки, которые работают с этими картами признаков, которые выделяет оператор Собеля, для того чтобы уточнить границы или соединять их в какие-то представления, которые можно использовать напрямую без привязки к обработке карты признаков, которая задана некоторым подобием исходного изображения, на котором представлены сегменты границ в виде пикселов с определенным цветом, отличающимся от фона.
索贝尔算子用于图像处理领域,特别是经常应用于边缘检测算法,即存在更高级别的包装程序,这些程序使用索贝尔算子提取的特征图,进一步精细化边缘或将它们连接成可以直接使用的表示,而不是处理由特定颜色像素表示边缘段的特征图,这些特征图类似于原始图像。

Рассмотрим подробнее принцип работы оператора Собеля. Данный оператор основан на свёртке изображения небольшими сепарабельными целочисленными фильтрами, как представлено на слайде, в вертикальном и горизонтальном направлениях. Поэтому его относительно легко вычислить.
我们详细探讨索贝尔算子的工作原理。该算子基于用小的可分离整数滤波器在垂直和水平方向上卷积图像,如幻灯片所示。因此,相对容易计算。

С другой стороны, используемое им аппроксимация градиента достаточно грубая, особенно это сказывается на высокочастотных колебаниях изображения. Оператор Собеля вычисляет градиент яркости изображения в каждой точке, так возможно найти направление наибольшего увеличения яркости и величины её изменения в этом направлении.
另一方面,它使用的梯度近似非常粗糙,特别是在图像的高频波动时。索贝尔算子在每个点计算图像亮度梯度,因此可以找到亮度最大增量的方向及其在该方向上的变化幅度。

Результат показывает, насколько резко или плавно меняется яркость изображения в каждой точке, а значит, вероятность нахождения точки на границе, а также ориентацию границы.
结果显示图像每个点的亮度变化是多么陡峭或平缓,从而确定该点在边界上的可能性以及边界的方向。

На практике вычисление величины изменения яркости, то есть вероятности принадлежности грани согласно нашей эвристике, надёжнее и проще в интерпретации, чем расчёт направления.
在实践中,计算亮度变化幅度,即根据我们的启发式方法确定属于边缘的可能性,比计算方向更可靠且更易于解释。

Математически градиент функции двух переменных для каждой точки изображения, которое является функцией яркости, представляет собой двумерный вектор, компонентами которого являются производные яркости изображения по горизонтали и вертикали в каждой точке изображения.
数学上,二维函数的梯度在每个图像点,即亮度函数,是一个二维向量,其分量是图像每个点的水平和垂直亮度导数。

Градиентный вектор ориентирован в направлении наибольшего увеличения яркости, а его длина соответствует величине изменения яркости. Это означает, что результатом применения оператора Собеля в точке, лежащей в области постоянной яркости, будет нулевой вектор, а в точке, лежащей на границе области различной яркости — вектор, пересекающий границу в направлении увеличения яркости.
梯度向量指向亮度增加最大的方向,其长度对应亮度变化的幅度。这意味着在亮度恒定区域的点应用索贝尔算子的结果将是零向量,而在不同亮度区域边界的点应用索贝尔算子将是一个穿过边界指向亮度增加方向的向量。

Строго говоря, оператор использует два ядра, представленных на слайде, с которыми сворачивает исходное изображение для вычисления приближенных значений производных по горизонтали и вертикали.
严格来说,该算子使用如幻灯片所示的两个核,与原始图像卷积以计算水平和垂直方向的近似导数。

Здесь представлены две карты, одна из которых получена применением ядра Собеля, который вычисляет градиент в горизонтальном направлении, и ещё одна карта, полученная вычислением ядра Собеля при помощи свёртки для получения градиента в вертикальном направлении. Далее из этих двух карт очевидным образом получается общая карта градиента. Данные манипуляции представлены на слайде.
这里展示了使用水平方向核得到的梯度图和使用垂直方向核得到的梯度图。接下来,通过这些图可以显而易见地得到总体梯度图。幻灯片展示了这些操作。

Поскольку функция яркости известна только в дискретных точках, мы не можем определить производные до тех пор, пока не положим яркость дифференцируемой функции, которая проходит через эти точки.
由于亮度函数仅在离散点处已知,因此我们无法在未假设亮度函数可微之前确定导数。借助这一附加假设,亮度可微函数的导数可以从取样点,即图像点,计算出来。

С этой дополнительной предпосылкой, производную дифференцируемой функции яркости можно вычислить как от функции, с которой взяты замеры, то есть точки изображения.
结果表明,任意单独点的导数是亮度函数对所有图像点的函数。然而,在考虑这些导数的近似时,可以通过局部近似来确定它们的精度。

Оказывается, что производные в любой отдельной точке — это функции яркости от всех точек изображения. Однако при рассмотрении приближения этих производных их можно определить с большей или меньшей степенью точности при помощи локальных аппроксимаций. Такие локальные аппроксимации тем не менее позволяют грубо судить о наличии перепада яркости, то есть границы, в определенной окрестности изображения.
这些局部近似允许粗略判断在图像的某个邻域中是否存在亮度变化,即边界。

Оператор Собеля как раз таки и использует данную идею. Это проиллюстрировано на данном слайде. Оператор Собеля представляет собой довольно неточное приближение градиента, однако на практике хорошо себя зарекомендовал в качестве составляющей для извлечения контурной информации при решении широкого ряда общих задач компьютерного зрения. Оператор Собеля использует значения интенсивности только в определенных окрестностях, то есть окрестностях каждого пиксела, с целью получения приближения соответствующего градиента изображения и использует только целочисленные значения весовых коэффициентов яркости для оценки градиента.
索贝尔算子正是利用了这个概念。如幻灯片所示,索贝尔算子是梯度的一个相对不精确的近似,但在实践中,它在解决广泛的计算机视觉任务中特征提取方面表现良好。索贝尔算子只使用在每个像素邻域中的强度值,以获得相应的图像梯度近似,并仅使用整数权重系数来评估梯度。

Рассмотрим ещё один оператор для выделения характерных признаков, связанных с контурами изображений.
我们再介绍一个用于提取与图像轮廓相关的特征的算子。

Итак, оператор Прюитта, по фамилии автора данного подхода. Данный метод представляет собой способ выделения границ изображений, изначально созданный для обработки медицинских изображений, и вычисляющий максимальный отклик на множестве ядер свёртки для нахождения локальной ориентации границы в каждом пикселе.
这就是普鲁伊特算子,以其方法作者的名字命名。这种方法是一种图像边缘检测方法,最初为处理医学图像而设计,通过多个卷积核的最大响应来计算每个像素的局部边缘方向。

Для этой операции используются различные ядра. Из одного ядра можно получить восемь, переставляя вращательно коэффициенты. Каждый результат будет чувствителен к направлению границы от 0 до 315 градусов с шагом 45, где 0 соответствует вертикальной границе. Максимальный ответ каждого пикселя — это значение соответствующего пикселя в выходном изображении. Значения его лежат между единицей и восьмью в зависимости от номера ядра, давшего наибольший результат.
这项操作使用不同的核。通过旋转排列系数可以从一个核得到八个核。每个结果将对从0到315度(以45度为步长)方向的边缘敏感,其中0度对应垂直边缘。每个像素的最大响应是输出图像中相应像素的值。其值介于1到8之间,取决于产生最大结果的核的编号。

Этот метод выделения границ также называется подстановкой шаблонов границ, поскольку изображению сопоставляется набор шаблонов, и каждый представляет некоторую ориентацию границы. Величина и ориентация границы в пикселе тогда определяется шаблоном, который лучше всех соответствует локальной окрестности пикселя.
这种边缘检测方法也称为边缘模板替换,因为图像被匹配到一组模板,每个模板代表某个边缘方向。然后,像素的边缘幅度和方向由最符合像素局部邻域的模板确定。

Детектор границ Прюитта является подходящим способом для оценки величины и ориентации границы, в то время как детектор с дифференциальным градиентом нуждается в трудоёмкой операции вычисления оценки ориентации по величинам в вертикальном и горизонтальном направлениях.
普鲁伊特边缘检测器是评估边缘幅度和方向的适当方法,而微分梯度检测器则需要通过在垂直和水平方向上的幅度计算来评估方向,这是一个繁重的操作。

Детектор границ Прюитта даёт направление прямо из ядра с максимальным результатом. Набор ядер ограничен семью возможными направлениями, однако опыт показывает, что большинство прямых оценок ориентации тоже очень точны.
普鲁伊特边缘检测器直接从最大结果的核中给出方向。核集仅限于七个可能的方向,然而,经验表明,大多数直接方向估计也非常准确。

С другой стороны, набор ядер нуждается в семи свёртках для каждого пикселя, тогда как набор ядер градиентного метода требует только двух — по вертикали и по горизонтали. Соответственно, результат для изображения мощности границ очень похож у обоих методов, имеется в виду Прюитт и градиентный, если в них используются те же ядра свёртки.
另一方面,核集需要对每个像素进行七次卷积,而梯度方法的核集只需进行两次卷积——一次在垂直方向,一次在水平方向。因此,使用相同卷积核的情况下,普鲁伊特和梯度方法的边缘幅度图像结果非常相似。

Рассмотрим для примера два ядра, которые используют оператор Прюитта, в данном случае горизонтально ориентированное и вертикально ориентированное. Данные ядра имеют размерность 3 на 3, и с их помощью происходит свёртывание исходного изображения для вычисления приближенных значений производных соответственно по горизонтальному и вертикальному направлению. Здесь буквой A обозначена исходная картинка.
我们举例说明普鲁伊特算子使用的两个核,在这种情况下是水平定向和垂直定向的。这些核的维度是3×3,通过卷积原始图像来计算水平和垂直方向的近似导数。这里用字母A表示原始图像。

На выходе получаются карты признаков, то есть два изображения, в которых каждая точка содержит горизонтальное и вертикальное приближение производной в зависимости от формы, которая представлена на слайде, то есть формула для вычисления горизонтально ориентированного компонента производной и вертикального.
输出是特征图,即两个图像,其中每个点包含水平和垂直导数的近似值,取决于幻灯片上所示的形式,即水平导数和垂直导数的计算公式。

Также контурные признаки можно находить с помощью перекрестного оператора Робертса. Данный метод представляет собой один из самых ранних опубликованных алгоритмов выделения границ.
此外,可以使用罗伯茨交叉算子提取轮廓特征。这种方法是最早发表的边缘检测算法之一。

Данный подход вычисляет на плоском дискретном изображении сумму квадратов разниц между диагонально смежными пикселами. Это может быть выполнено свёрткой изображения с двумя ядрами, представленными на слайде. Иными словами, величина перепада G получаемого изображения вычисляется из исходных значений параметра Y в дискретных точках растра с координатами x и y согласно правилу, представленному на слайде.
这种方法通过计算对角相邻像素之间差异的平方和来处理平面离散图像。这可以通过两个核卷积图像来完成,如幻灯片所示。换句话说,得到的图像梯度G的幅度根据幻灯片上所示的规则从离散网格点x和y处的原始Y值计算得出。

Отметим, что здесь используется евклидова метрика, но иногда в прикладных случаях модуль вектора перепада в методе Робертса может ускоренно вычисляться, например, по метрике Манхэттена, она же называется метрикой городских кварталов или городским расстоянием.
注意,这里使用的是欧几里得度量,但在某些应用中,罗伯茨方法中的梯度向量幅度可以加速计算,例如使用曼哈顿度量,也称为城市街区度量或城市距离。

То есть в методе Робертса используется суммарный вектор из двух диагональных векторов перепада, и в операторе Робертса используется модуль этого суммарного вектора, который показывает наибольшую величину перепада между четырьмя охваченными точками, а направление этого вектора соответствует направлению наибольшего перепада между точками. Статья не описана, но тоже находит применение в анализе картины двумерного распределения параметра Y.
也就是说,罗伯茨方法使用两个对角向量梯度的总和,在罗伯茨算子中使用这个总向量的模,它显示了四个包含点之间的最大梯度幅度,而这个向量的方向对应于包含点之间最大梯度的方向。虽然文章没有描述,但这种方法也用于分析二维分布参数Y的图像。

Преобразование каждого пикселя перекрестным оператором Робертса может показать производную изображения вдоль не нулевой диагонали, и комбинация этих преобразованных изображений может также рассматриваться как градиент от двух верхних пикселей к двум нижним.
每个像素通过罗伯茨交叉算子的变换可以显示沿非零对角线的图像导数,而这些变换后的图像的组合也可以看作是从两个上部像素到两个下部像素的梯度。

Оператор Робертса всё ещё используется ради быстроты вычислений, но он проигрывает в сравнении с альтернативами из-за значительной чувствительности к шуму, что часто неприемлемо.
由于计算速度快,罗伯茨算子仍然在使用,但与其他方法相比,由于对噪声的高度敏感性,它往往不太合适。

Данный подход даёт более тонкие линии, чем другие методы выделения границ, и таким образом практически равносилен вычислению конечных разностей вдоль координат x и y. Иногда его называют фильтром Робертса.
这种方法比其他边缘检测方法产生更细的线条,因此实际上等效于沿x和y坐标的有限差分计算。有时它被称为罗伯茨滤波器。

На картине двумерного распределения в качестве параметра Y обычно выступают значения любых полей, например яркость, цветового канала, интенсивность и тому подобное.
在二维分布图像中,参数Y通常表示任何场的值,例如亮度、颜色通道、强度等。