View on GitHub

ITMO-PE

My study notes about Program Engineering at University ITMO

MainPage/Computer Vision/Lecture/4-2 RAW

语音识别:Youtube 转文本
断句与标点:chatGPT 4o
翻译:chatGPT 4o

Задача трекинга объекта в видеопотоке в общем виде заключается в сопоставлении детекции объекта на последовательности кадров видеопотока треку объекта, то есть некому эталону, который хранится для заданной траектории. Задача трекинга множества объектов в общем виде заключается в трекинге нескольких различных объектов. В последнее время появилось множество надёжных алгоритмов для трекинга одного объекта. Однако при наличии нескольких объектов в кадре необходимо отслеживать соответствие объектов текущего фрейма объектам предыдущего в условиях возможных перекрытий. Это является довольно сложной задачей, так как объекты могут в значительной степени перекрывать друг друга, то есть создавать сложные окклюзии и иметь сходство друг с другом, что усложняет дифференцирование одного объекта от другого.
对象跟踪任务在视频流中的一般形式是将视频流帧序列中对象的检测与对象轨迹(即某个存储的基准轨迹)进行匹配。多个对象的跟踪任务则是跟踪多个不同的对象。最近,出现了许多可靠的单对象跟踪算法。然而,当帧中存在多个对象时,必须在可能的遮挡情况下跟踪当前帧对象与前一帧对象的对应关系。这是一个相当复杂的任务,因为对象可能会大幅度遮挡彼此,即产生复杂的遮挡现象,并且对象之间可能具有相似性,从而使得区分一个对象与另一个对象变得更加困难。

Наиболее простой для понимания концепцией трекинга объектов на условно неподвижном фоне является идея background subtraction или вычитание фона, которую можно грубо представить как получение бинарной маски путём вычитания среднего фона некоторого количества накопленных калибровочных кадров из текущего с последующим пороговым преобразованием для распознавания смещения отслеживаемых объектов. Процедура вычитания предполагает, что для данного видео построена модель фона, а также возможно существует механизм обновления этой модели с течением времени. Для одноканального изображения в оттенках серого цвета процедуру можно разбить на два этапа. На первом этапе будет производиться вычитание фонового изображения из текущего кадра видео. Данный шаг включает в себя покадровое вычитание интенсивности кадров видео и фонового изображения. На втором этапе будет производиться отбор пикселов, принадлежащих фону и объекту, то есть построение бинарного изображения маски. Считается, что пиксель принадлежит объекту и имеет белый цвет в маске, если разность интенсивности фона и текущего кадра для данного пикселя превышает некоторое пороговое значение.
在假设背景相对静止的情况下,最易理解的对象跟踪概念是背景减法(background subtraction),即通过减去当前帧中的平均背景图像并进行阈值变换来识别被跟踪对象的移动。该方法要求为视频构建一个背景模型,并可能需要一个随时间更新背景模型的机制。对于灰度图像,可以将该过程分为两个步骤。第一步是从当前视频帧中减去背景图像,这一步骤包括逐像素减去视频帧和背景图像的强度。第二步是选择属于背景和对象的像素,即构建二进制掩码图像。如果某个像素点的背景和当前帧的强度差超过某个阈值,则认为该像素点属于对象,并在掩码中显示为白色。

Дополнительно к указанным операциям с целью повышения качества поиска объекта может выполняться, например, фильтрация кадров исходного потока видеоданных либо фильтрация бинарного видео. Также могут применяться морфологические операции к полученному отсечению, имеется в виду пороговое преобразование. Если имеется цветное изображение, то его всегда можно преобразовать в оттенки серого. Качество определения положения движущихся областей посредством вычитания фона является моделью, неустойчивой к изменению фона с течением времени. Однако следует понимать, что при должной пространственно-временной локализации данная идея применима как составная часть многих алгоритмов, в том числе и современных, в том числе как составляющая глубоких нейросетевых архитектур, скомбинированная с другими идеями.
除了上述操作外,为了提高对象检测的质量,可以对视频数据流的原始帧或二进制视频进行过滤。还可以对生成的掩码应用形态学操作,特别是阈值变换。如果有彩色图像,则可以将其转换为灰度图像。通过背景减法确定移动区域的位置是一种对背景变化不稳定的模型。然而,需要理解的是,在适当的时空定位情况下,这种方法可以作为许多算法的一部分,包括现代的深度神经网络架构与其他方法相结合。

Множество техник вычитания фона подразделяется на две группы в зависимости от механизма построения фонового изображения. Первая группа носит название нерекурсивные. Нерекурсивные методы обновляют модель фона для текущего кадра на основании информации об интенсивностях пикселов некоторого набора предшествующих моделей фона или кадров и текущего кадра. К наиболее распространённым нерекурсивным методам относится метод вычитания текущего и предыдущего кадров и метод усреднения n предшествующих кадров или моделей фона. Вторая группа называется рекурсивными методами. Рекурсивные методы для обновления моделей фона используют информацию об интенсивности пикселов только текущего кадра. К таковым относится метод представления модели фона смесью гауссовских распределений и метод шифровальной книги.
背景减法技术可以根据背景图像生成机制分为两类。第一类称为非递归方法。非递归方法基于某些前几帧或背景模型及当前帧中像素强度的信息来更新当前帧的背景模型。最常见的非递归方法包括当前帧和前一帧的减法方法,以及前n帧或背景模型的平均方法。第二类称为递归方法。递归方法仅使用当前帧中像素强度的信息来更新背景模型。这类方法包括将背景模型表示为高斯混合分布的方法和加密书方法。

Таким образом, всё вращается вокруг идеи получения маски смещения объектов. Отметим, что в некоторых контекстах современные алгоритмы и системы трекинга, как уже говорилось, до сих пор используют данную идею в специфичных контекстах. Таким образом, подход вычитания фона до сих пор имеет практическую значимость. Однако перейдём к более комплексному рассмотрению предмета нашей сегодняшней лекции. Для начала поговорим об общей архитектуре системы трекинга объектов.
因此,所有这些方法都围绕着获取对象移动的掩码。需要指出的是,在某些情况下,现代的跟踪算法和系统仍然使用这些方法。因此,背景减法方法仍然具有实际意义。然而,我们将更全面地讨论今天讲座的主题。首先,我们来谈谈对象跟踪系统的总体架构。

Безусловно, всё начинается с функционала детектора, который предоставляет априорные bounding boxes и периодически предоставляет новые вводные данные о локализации объектов для корректировки трекера. Также присутствует механизм выделения некоторого дескриптора зафиксированного объекта и сопоставления с детектированными объектами с последующим созданием, восстановлением и обновлением траекторий, то есть следов перемещения объектов. В общем виде траектория, как правило, содержит некоторый дескриптор того или иного объекта, который позволяет его идентифицировать и дифференцировать от других объектов, а также историю присутствия объектов в виде bounding boxes на последовательности рассматриваемых кадров. При реализации всех этих составляющих внутри единого комплекса и получается система трекинга.
毫无疑问,所有的一切都始于检测器功能,它提供了先验的边界框(bounding boxes),并定期提供新的定位数据以校正跟踪器。还存在一个提取固定对象描述符的机制,并将其与检测到的对象进行匹配,随后创建、恢复和更新轨迹,即对象移动的痕迹。一般情况下,轨迹通常包含某个对象的描述符,这使得可以识别和区分该对象与其他对象,并且包含对象在帧序列中以边界框形式存在的历史记录。在将所有这些组成部分集成到一个系统中时,就形成了对象跟踪系统。

Перед тем как перейти к подходам, основанным на глубоком обучении, которое исповедует tracking by detection парадигму, мы рассмотрим трекинг в более широком контексте и изучим различные вариации конструктивных составляющих общего стека системы трекинга. Начнём с задачи определения априорного положения объекта или так называемого поиска положения объекта в кадре. Цель поиска — определить наличие объекта на изображении и найти его положение в системе координат пикселов исходного изображения. Положение объекта в зависимости от выбранного алгоритма может определяться координатами прямоугольника, охватывающего объект, либо контуром этого объекта, либо координатами набора точек, наиболее характерных для объекта рассматриваемого класса.
在转向基于深度学习的跟踪方法之前,这些方法遵循检测跟踪(tracking by detection)范式,我们将跟踪置于更广泛的背景下,并研究跟踪系统整体堆栈的各种结构组成部分。我们从确定对象先验位置的任务开始,或者说是对象在帧中位置的搜索任务。搜索的目的是确定图像中是否存在对象,并找到它在原始图像像素坐标系统中的位置。对象的位置取决于所选算法,可以通过围绕对象的矩形坐标、对象的轮廓或一组最具特征的点来确定。

Решение задачи поиска объектов позволяет анализировать качественный состав сцены, а также получать информацию о взаимном расположении объектов. Сложность задачи поиска объектов на изображении обусловлена многими причинами, среди которых можно выделить несколько основных. Первой является разнообразие форм и цветов представителей классов объектов. В случае множества транспортных средств это разнообразие типов, например, легковые, грузовые автомобили, автобусы и мотоциклы. Наряду с разнообразием форм также затрудняющим обстоятельством является широкая вариативность цветов рассматриваемых объектов. Вторым обстоятельством, которое существенно усложняет задачу поиска, является перекрытие детектируемых объектов. Естественная ситуация, когда с точки зрения камеры объекты видны частично, например, обозревается только крыша или ветровое стекло автомобиля. Третьим обстоятельством, которое препятствует эффективной работе методов поиска, является различная степень освещенности объектов на сцене при съёмке объектов при естественном освещении. Данное обстоятельство может быть обусловлено временными или погодными факторами.
解决对象搜索任务可以分析场景的质量组成,并获取对象之间相对位置的信息。对象搜索任务的复杂性由多种原因导致,其中包括几个主要方面。第一是对象类别代表的形状和颜色多样性。对于多种交通工具,这是类型的多样性,例如轿车、卡车、公交车和摩托车。除了形状的多样性之外,广泛的颜色变化也是一个困难因素。第二个使搜索任务复杂化的因素是检测对象的遮挡。这是一种自然情况,从摄像机角度看,可能只看到部分对象,例如,只能看到汽车的车顶或挡风玻璃。第三个妨碍搜索方法有效工作的因素是拍摄对象时场景中对象的不同照明程度。在自然光下拍摄对象时,这种情况可能由时间或天气因素引起。