MainPage/Computer Vision/Lecture/4-3 RAW
语音识别:Youtube 转文本
断句与标点:chatGPT 4o
翻译:chatGPT 4o
Поговорим теперь про основные подходы к приорди и локализации объектов. Для начала рассмотрим методы, основанные на извлечении признаков. Один из возможных подходов к решению задачи поиска объектов состоит в том, чтобы использовать алгоритмы машинного обучения для построения моделей классов объектов, например, стулья, люди, мотоцикл, самолет, автомобили, автобусы и так далее, и алгоритмы вывода для определения положения объектов на изображении. Построение модели извлечения признаков состоит из двух этапов.
现在我们来讨论对象优先级和定位的基本方法。首先,我们将探讨基于特征提取的方法。解决对象搜索问题的一种可能方法是使用机器学习算法构建对象类别模型,例如椅子、人、摩托车、飞机、汽车、公交车等等,并使用推理算法确定图像中对象的位置。特征提取模型的构建分为两个阶段。
На первом этапе производится извлечение признаков, то есть некоторых числовых характеристик, характерных для объектов класса, на некотором множестве изображений. Это включает в себя построение характеристических векторов признаков для особых визуальных элементов объекта, например углов, ребер, контуров или для всего объекта в целом. На данном этапе также формируется тренировочная выборка.
在第一阶段,进行特征提取,即提取某些数值特征,这些特征是类对象所特有的,取自一定数量的图像。这包括为对象的特定视觉元素(例如角点、边缘、轮廓或整个对象)构建特征向量。在此阶段,还会形成训练集。
На втором этапе производится обучение модели объекта. Здесь предполагается тренировка модели на полученной выборке. Техники данной группы описывают объект с использованием векторов признаков или дескрипторов. Векторы могут вычисляться, например, на основании анализа функции яркости пикселов. Примером такой группы подходов является гистограмма ориентированных градиентов. Это один из наиболее популярных способов. Также может быть использована контекстная информация, а в некоторых случаях данные о геометрии и взаимном расположении частей объекта. В результате объект описывается набором векторов признаков характерных точек, а в процессе тренировки формируется модель, содержащая наиболее типичные векторы признаков.
在第二阶段,进行对象模型的训练。这里假设模型在获得的训练集上进行训练。这组技术使用特征向量或描述符来描述对象。特征向量可以基于像素亮度函数分析计算。该方法组的一个例子是定向梯度直方图(HOG),这是最流行的方法之一。此外,还可以使用上下文信息,有时还会使用对象几何和部分之间相对位置的数据。结果是,使用特征点的向量集合来描述对象,在训练过程中形成包含最典型特征向量的模型。
Алгоритм детектирования объекта определенного класса включает два этапа. На первом этапе производится извлечение признаков объекта из тестового изображения. При извлечении признаков возникают две основные проблемы. Первое заключается в том, что на изображении может быть много объектов одного класса, а требуется найти всех представителей. Поэтому необходимо просматривать все части изображения. Типичное решение — это подход со сканирующим окном от левого верхнего до правого нижнего угла, к примеру. При этом размер окна определяется размером изображения объектов тренировочной выборки. Второе обстоятельство заключается в том, что объекты на изображении могут иметь разный масштаб. Самое распространенное решение в этом случае — это масштабирование изображений.
特定类别对象的检测算法包括两个阶段。第一阶段,从测试图像中提取对象的特征。在特征提取时,会遇到两个主要问题。第一个问题是图像中可能有许多同类对象,需要找到所有代表。因此,有必要查看图像的所有部分。典型的解决方案是从左上角到右下角的扫描窗口方法。例如,窗口的大小由训练集中的对象图像的大小决定。第二个问题是图像中的对象可能具有不同的比例。最常见的解决方案是图像缩放。
Второй этап детектирования объектов в рамках рассматриваемого пайплайна заключается в определении положения объектов на изображении. Входными данными на данной стадии алгоритма поиска положения являются формальное описание объекта и модель класса объектов. Формальное описание — это набор признаков, которые представлены из тестового изображения. На основании этой информации выполняется сравнение формального описания с моделью. Значение меры сходства можно рассматривать как степень достоверности того, что объект принадлежит классу, который определяется данной моделью. Качество работы методов данной группы в основном зависит от того, какие выбраны признаки, то есть насколько хорошо признаки разделяют классы объектов.
检测对象流水线的第二阶段是确定图像中对象的位置。在此阶段,输入数据是对象的形式描述和对象类模型。形式描述是从测试图像中提取的特征集合。基于这些信息,执行形式描述与模型的比较。相似性度量值可以被视为对象属于由此模型定义的类的可信度。此方法组的工作质量主要取决于选择的特征,即这些特征在多大程度上能够区分对象类。
В настоящее время можно найти специальные методы, основанные на изучении признаков, например для поиска лиц, транспортных средств и других. В общем виде данный тип методов нахождения объекта включает в себя методы детектирования, о которых мы подробно говорили на одной из предыдущих лекций.
目前,可以找到基于特征研究的专用方法,例如用于人脸、交通工具等的搜索。在一般情况下,这种类型的对象定位方法包括我们在之前的讲座中详细讨论过的检测方法。
Еще одним примечательным способом поиска объекта на изображении являются методы поиска по шаблону. Поиск объектов на основании некоторого шаблона предполагает наличие изображения объекта с выделенными признаками, то есть самого шаблона, а также тестового изображения, с которым происходит сопоставление шаблона. В простейшем случае в качестве шаблона в контексте монохромных изображений может выступать матрица интенсивности цветов, наиболее характерных для объекта. Более сложные методы рассматриваемой группы в качестве шаблона используют наборы векторов признаков, дескрипторов, геометрическое представление объекта или вероятностные модели объектов, которые содержат информацию о распределениях интенсивности пикселов. Сопоставление с шаблоном предусматривает сравнение описаний тестового и шаблонного изображений по некоторой выбранной метрике. Как правило, выбирается евклидово расстояние, норма или свёртка квадратичных ошибок либо корреляция. Отметим, что методы поиска по заданному шаблону эффективно работают при поиске одиночных объектов, так как при возникновении перекрытий исчезают некоторые признаки в описании.
另一个值得注意的对象搜索方法是基于模板的搜索。基于某个模板的对象搜索假定存在一个具有突出特征的对象图像,即模板,以及一个用于与模板进行比较的测试图像。在最简单的情况下,对于单色图像,模板可以是最能代表对象的颜色强度矩阵。该方法组的更复杂方法使用特征向量、描述符集合、对象的几何表示或包含像素强度分布信息的概率模型作为模板。模板匹配包括根据选定的度量标准比较测试图像和模板图像的描述。通常选择欧几里得距离、范数或平方误差卷积或相关性。需要注意的是,基于模板的搜索方法在搜索单个对象时效果显著,因为在发生重叠时描述中的某些特征会丢失。
Далее рассмотрим методы определения областей движения. Задача выделения областей движения на видео — это одна из классических задач компьютерного зрения. Решением данной задачи является совокупность областей изображения, в которых происходит движение одного или нескольких объектов. Простейший способ оценить движение на нескольких изображениях — это перебрать все возможные варианты смещения изображений или фрагментов, так называемое translation alignment. Для этого первоначально необходимо выбрать метрику для оценки степени сходства фрагментов. Как следствие, исходная задача может быть сведена к минимизации этой оценочной функции по всем возможным направлениям смещения. На практике полный перебор работает достаточно медленно, поэтому часто применяются иерархические схемы. Конструируется пирамида изображений посредством масштабирования исходного изображения, и поиск выполняется от мелких изображений к более крупным, в результате чего постепенно отсекаются направления смещения, в которых заведомо не происходит движение.
接下来,我们探讨运动区域的确定方法。视频中运动区域的识别问题是计算机视觉的经典问题之一。解决此问题的方法是找出图像中一个或多个对象发生运动的区域。评估多张图像上的运动的最简单方法是遍历所有可能的图像或片段位移选项,即所谓的平移对齐。为此,首先需要选择用于评估片段相似度的度量标准。因此,初始问题可以归结为对所有可能的位移方向进行评估函数的最小化。在实践中,完全遍历工作得相当慢,因此常常使用分层方案。通过缩放原始图像构建图像金字塔,从较小的图像到较大的图像进行搜索,逐步剔除明显没有发生运动的位移方向。
Многие задачи, такие как склеивание изображений в панораму, стабилизация видео и другие, требуют построения более сложных моделей движения, так как аффинные преобразования сводятся не только к простому смещению. Поэтому рассматриваются пространственные поля смещений и строятся параметрические модели движения. Во многих случаях визуальное движение вызвано смещением небольшого количества объектов, находящихся на разной глубине изображения, поэтому движение пикселов можно описать более эффективно, если сгруппировать их в слои и как следствие отслеживать многоуровневое движение построенных слоев, например, с помощью параметрических моделей.
许多任务,如图像拼接成全景图、视频稳定化等,需要构建更复杂的运动模型,因为仿射变换不仅限于简单的平移。因此,我们考虑空间位移场并构建参数化运动模型。在许多情况下,视觉运动是由少量处于不同图像深度的对象移动引起的,因此如果将像素分组成层并跟踪构建层的多级运动,例如使用参数化模型,运动描述会更有效。
Другой распространенный подход к решению задач детектирования областей движения — это вычисление оптического потока. Оптический поток позволяет определить смещение каждого пиксела. Применение данного подхода требует выполнения двух основных условий: яркость каждой точки объекта не изменяется с течением времени и ближайшие точки, принадлежащие одному объекту в плоскости изображения, двигаются с похожей скоростью. В результате исходная задача вычисления оптического потока сводится к задаче минимизации квадратичной ошибки при наличии ограничений в виде равенств. Данная процедура применяется каждому пикселю текущего изображения, в результате чего обеспечивается построение поля векторов смещения всех пикселов. Метод оптического потока также применяется для определения направления движения объекта при решении задачи сопровождения.
解决运动区域检测问题的另一种常见方法是计算光流。光流允许确定每个像素的位移。此方法需要满足两个主要条件:对象的每个点的亮度随时间不变,并且属于同一对象的平面图像上的最近点以相似的速度移动。结果,计算光流的初始问题归结为在约束等式存在的情况下最小化平方误差。这一过程应用于当前图像的每个像素,从而构建所有像素位移向量场。光流方法还用于确定对象运动方向,以解决跟踪问题。
Следует отметить, что для трекинга объектов различного типа применяются самые разные подходы. Рассмотрим подробнее классификацию методов трекинга. Трекинг движущихся объектов — это один из компонентов многих систем реального времени, таких как системы слежения, анализа видео и других. Входными данными любого алгоритма трекинга является последовательность изображений, то есть кадров видео с нарастающим объемом информации, которую необходимо обрабатывать и анализировать. Алгоритм трекинга обеспечивает построение траектории движения целевых объектов на входной последовательности кадров. На данный момент не существует метода, который позволял бы оптимально решать задачу сопровождения объектов или трекинга в общем случае. Критичным вопросом для алгоритмов трекинга является начальный захват объекта, то есть определение его исходного положения.
需要注意的是,对于不同类型对象的跟踪,采用了多种不同的方法。让我们详细讨论跟踪方法的分类。移动对象的跟踪是许多实时系统的一个组件,如跟踪系统、视频分析等。任何跟踪算法的输入数据都是图像序列,即随着信息量增加的视频帧序列,需要处理和分析这些信息。跟踪算法确保构建目标对象在输入帧序列上的运动轨迹。目前,没有一种方法可以在一般情况下优化解决对象跟踪或跟踪问题。对于跟踪算法来说,关键问题是初始捕捉对象,即确定其初始位置。
Существует несколько категорий методов трекинга. Во-первых, методы сопровождения особых точек или трекинг особых точек. Объекты на последовательных кадрах представляются набором соответствующих точек. Данная группа методов разделяется на детерминистские и вероятностные подходы. Детерминистские методы используют качественные эвристики движения, например, небольшие изменения скорости, неизменность расстояния в трехмерном пространстве между парой точек, принадлежащих объекту. Суть задачи сводится к минимизации функции соответствия наборов точек. Вероятностные методы используют подход, основанный на понятии пространства состояний. Считается, что движущийся объект имеет определенное внутреннее состояние, которое измеряется на каждом кадре. В простейшем случае под состоянием понимается положение объекта на изображении. Чтобы оценить следующее состояние объекта, требуется обобщить полученные измерения, то есть определить новое состояние при условии, что получен набор измерений для состояния или предыдущих кадров. Типичными примерами таких методов являются методы на базе фильтра Калмана и фильтры частиц. При использовании фильтра Калмана предполагается, что состояние — это случайная величина с нормальным распределением, а в случае фильтра частиц распределение задается набором возможных значений состояния с указанием частот их возникновения.
存在几种跟踪方法类别。首先是关键点跟踪或关键点跟踪方法。对象在连续帧中表示为一组对应点。这组方法分为确定性和概率性方法。确定性方法使用运动的定性启发式,例如速度变化小、对象在三维空间中两点之间的距离不变。问题的本质是最小化点集之间的匹配函数。概率方法使用基于状态空间的方法。假设移动对象具有一定的内部状态,可以在每一帧上进行测量。在最简单的情况下,状态表示对象在图像中的位置。为了评估对象的下一个状态,需要总结获得的测量值,即在给定状态或前几帧的测量值的条件下确定新状态。这类方法的典型例子是基于卡尔曼滤波器和粒子滤波器的方法。使用卡尔曼滤波器时,假设状态是具有正态分布的随机变量,而在粒子滤波器的情况下,分布由一组可能的状态值及其出现频率表示。
Также существуют методы трекинга компонентов. Под компонентой понимается форма объекта или его внешний вид. В простейшем случае компонента может быть представлена шаблоном прямоугольной или овальной формы, а в более сложных — трехмерной моделью объекта, спроецированной на плоскость изображения. Как правило, методы данной группы применяются, если движение определяется обычным смещением, поворотом или аффинным преобразованием. Трекинг формы слабо подвержен внешним влияниям и шумам, в отличие от трекинга особых точек, так как большая часть информации о положении объекта уже известна. Трекинг формы может включать в себя детектирование и перемещение областей изображения, соответствующих объекту на новом кадре, к примеру. Иногда также применяется построение модели объекта на основе обучающей выборки, и если новое изображение отличается от ранее изученных, выполняется уточнение модели.
还存在组件跟踪方法。组件指的是对象的形状或外观。在最简单的情况下,组件可以表示为矩形或椭圆形模板,在更复杂的情况下,表示为投影到图像平面的对象三维模型。通常,这类方法用于运动由简单的平移、旋转或仿射变换确定的情况。形状跟踪不太受外界影响和噪声的干扰,不同于关键点跟踪,因为对象位置的大部分信息已知。形状跟踪可能包括在新帧上检测和移动对应于对象的图像区域,例如,有时还应用基于训练集构建对象模型,如果新图像与先前学习的图像不同,则执行模型调整。
Трекинг на основе сверток является более сложным. Используется свертка изображения с ядром, определяющим шаблон или признаки объекта, к примеру. В простейшем случае ядро может представлять собой маску с заданными значениями интенсивности, соответствующими объекту, или модель движения. Результат свертки представляет собой карту совпадений, где более яркие участки соответствуют лучшему совпадению с шаблоном, и наоборот. Затем, на основании карты совпадений, определяется новое положение объекта.
基于卷积的跟踪方法更为复杂。使用与定义模板或对象特征的核卷积图像。例如,在最简单的情况下,核可以表示为具有定义的强度值的掩模,这些值对应于对象或运动模型。卷积结果是一张匹配图,其中更亮的区域对应于与模板的最佳匹配,反之亦然。然后,根据匹配图确定对象的新位置。
В некоторых случаях применяются гибридные методы, которые объединяют подходы из различных категорий. Например, может использоваться фильтр Калмана для оценки состояния объекта, а трекинг особенностей — для определения положения в новой области.
在某些情况下,使用混合方法,结合了各种类别的方法。例如,可以使用卡尔曼滤波器来评估对象的状态,使用特征跟踪来确定新区域中的位置。
Для обработки данных используются алгоритмы фильтрации, такие как фильтр Гаусса для удаления шумов, метод Превитта или метод Собеля для определения градиентов интенсивности, к примеру. Эти алгоритмы могут быть использованы для предварительной обработки данных до применения основных методов анализа изображения.
处理数据时,使用滤波算法,例如高斯滤波器去除噪声、Prewitt方法或Sobel方法来确定强度梯度。这些算法可用于在应用主要图像分析方法之前进行预处理。
На этом лекция окончена. Спасибо за внимание!
本次讲座到此结束。谢谢大家的关注!