View on GitHub

ITMO-PE

My study notes about Program Engineering at University ITMO

MainPage/Computer Vision/Lecture/8-1 RAW

语音识别:Youtube 转文本
断句与标点:chatGPT 4o
翻译:chatGPT 4o

Сегодня мы поговорим о решении задачи поиска расстояния до видимых объектов сцены с помощью механизмов стереозрения. В основе данных подходов лежит идея анализа карты глубины на основе совмещения информации об одних и тех же точках на объектах представленной сцены, полученных с различных камер, находящихся на фиксированном расстоянии друг от друга и имеющих известные параметры внутренней калибровки. То есть мы находим параметры внешней калибровки системы через параметры внутренней калибровки и информацию о совпадающих точках на полученных изображениях с помощью рассматриваемых нами камер.
今天我们将讨论利用立体视觉机制解决找到场景中可见物体距离的问题。这些方法的核心思想是通过匹配从不同固定距离且已知内参数的摄像机获取的同一场景中物体的相同点的信息来分析深度图。也就是说,我们通过内参数和所匹配的点的信息,确定系统的外部校准参数。

Обычно для этих целей используют две камеры, работающие синхронно. Камеры получают изображения, а специальный алгоритм их анализирует для последующего построения трёхмерной структуры объекта. Стереозрение даёт возможность обойтись без использования датчиков измерения расстояния, таких как, например, лидар или другие активные датчики, что позволяет существенно снизить стоимость технического решения. Однако следует отметить, что у данных подходов существует ряд ограничений и недостатков, которые ограничивают контекст их применения. Об этом мы поговорим далее в нашей лекции. Также для наглядности посмотрим на эскизы того, о чём мы уже говорили.
通常,为此使用两台同步工作的摄像机。摄像机获取图像,专门的算法分析这些图像,以构建物体的三维结构。立体视觉使我们无需使用测距传感器,例如激光雷达或其他主动传感器,从而显著降低技术解决方案的成本。然而,需要注意的是,这些方法存在一系列限制和缺陷,这限制了它们的应用范围。我们将在后续的讲座中讨论这些问题。此外,为了更直观地理解,我们将查看之前讨论内容的草图。

Отметим, что в данной лекции мы рассматриваем устройства пассивные видеопары. Про активное и пассивное стереозрение мы поговорим чуть позже. Отметим, что наша пара состоит из двух камер, положение которых фиксировано относительно друг друга, рассматривающих одну и ту же сцену с различных ракурсов. И так как мы знаем параметры внутренней калибровки нашей стереопары, то есть параметры калибровки каждой камеры, то сопоставляя одни и те же точки сцены на изображениях, полученных с разных ракурсов, мы составляем карту глубины. Иллюстрацию этого можно видеть на слайде.
需要指出的是,在本讲座中我们讨论的是被动视频对设备。关于主动和被动立体视觉,我们稍后会再谈。需要指出的是,我们的系统由两台相对固定位置的摄像机组成,它们从不同角度观察同一场景。由于我们知道我们立体相机对的内参数,即每台摄像机的校准参数,通过匹配从不同角度获取的图像中的相同点,我们可以构建深度图。这一过程的示例可以在幻灯片中看到。

Чтобы не мучиться одними и теми же вопросами на протяжении всей лекции, мы поговорим о типах и разнообразии систем стереозрения. В основном все вопросы сводятся к определению того, является ли система активной или пассивной и сколько в ней видеосенсоров. Активность и пассивность различаются в том смысле, что активные системы стереозрения меняют параметры внутренней калибровки видеосенсоров, то есть камер, в зависимости от рассматриваемой сцены. Как, например, органы зрения объектов живой природы, например, человека. То есть могут меняться взаимные характеристики расположения сенсоров, фокусное расстояние и другие параметры, которых в биологической составляющей великое множество. Они сильно скорректированы и всегда можно однозначно описать инженерными приближениями.
为了在整个讲座中避免重复相同的问题,我们将讨论立体视觉系统的类型和多样性。基本上,所有问题都归结为确定系统是主动的还是被动的,以及系统中有多少视频传感器。主动和被动的区别在于,主动立体视觉系统根据所观察场景的变化调整视频传感器(即摄像机)的内参数。例如,生物的视觉器官,如人类的眼睛,可以调整传感器的位置关系、焦距和其他参数,这在生物系统中有很多变化,并且可以通过工程近似来描述。

Тем не менее, в инженерной системе также могут меняться углы, фокусное расстояние и другие параметры камер. Нетрудно догадаться, что такая система довольно сложна в создании и управлении, является довольно дорогой с точки зрения железа и используемых технологий. Поэтому применяется не часто, в очень узких случаях, которые мы не будем рассматривать. Пассивная же система представляет собой фиксированные относительно друг друга камеры, у которых не меняются параметры внутренней калибровки. То есть не меняются углы относительно друг друга, не меняются фокусные расстояния и вообще настройки камер не меняются. Это сильно упрощает настройку данной системы, сборку, управление. Конечно, это снижает возможности, но в рамках решения задачи поиска расстояния точек до точек трёхмерной сцены, как, например, в задачах, связанных с системами поддержки принятия решений водителем или же автопилотов для автомобилей, систем с пассивным стереозрением, как правило, достаточно.
尽管如此,在工程系统中,摄像机的角度、焦距和其他参数也可以变化。可以理解,这样的系统在创建和管理上非常复杂,从硬件和技术的角度来看非常昂贵。因此,这类系统很少应用于非常特殊的情况,我们不会在这里讨论。被动系统则是固定相对位置的摄像机,其内参数不变。也就是说,摄像机的相对角度、焦距和设置不变。这大大简化了系统的设置、组装和管理。当然,这也降低了其功能,但在解决找到三维场景中点到点距离的问题上,例如在驾驶员决策支持系统或汽车自动驾驶系统中,被动立体视觉系统通常已足够。

Активное стереозрение применяется, как правило, в задачах, когда требуется повышенная точность, таких, например, как отслеживание микроизменений физиологических параметров человека, например, пациента, оценка эмоционального состояния и прочее. Поэтому в нашей лекции мы будем рассматривать пассивные системы видеозрения. Наряду с активным и пассивным зрением, одним из часто изменяющихся параметров является количество камер. Сразу скажем, что, опять же, в нашей лекции для простоты изложения мы будем рассматривать стереопару, то есть систему, состоящую из минимального количества камер — то есть двух. Разумеется, в контексте систем стереозрения, и при этом следует отметить, что данная концепция покрывает большинство потребностей промышленных систем. Дело в том, что многокамерные подходы, где камер три и более, применяются в основном в задачах создания комплексной трёхмерной модели исследуемого объекта, например, для виртуальных примерочных и прочего. Общие принципы совмещения точек на изображениях и измерения дальности остаются теми же. Поэтому, изучая системы стереозрения на основе пассивной видеопары, мы покрываем большинство кейсов и создаём фундамент для работы практически с произвольными системами стереозрения.
主动立体视觉通常应用于需要高精度的任务,例如监测人体的微小生理变化(如患者)或评估情绪状态等。因此,在我们的讲座中,我们将讨论被动视频系统。除了主动和被动视觉外,经常变化的一个参数是摄像机的数量。简而言之,为了简化讲解,我们将在讲座中讨论立体对系统,即由最少数量摄像机(两台)组成的系统。显然,在立体视觉系统的背景下,这种概念覆盖了大多数工业系统的需求。实际上,多摄像机方法(即有三台或更多摄像机的系统)主要用于创建复杂三维模型的任务,例如虚拟试衣间等。匹配图像中的点和测量距离的基本原理是相同的。因此,通过研究基于被动视频对的立体视觉系统,我们覆盖了大多数案例,并为几乎所有立体视觉系统的工作奠定了基础。