View on GitHub

ITMO-PE

My study notes about Program Engineering at University ITMO

MainPage/Computer Vision/Lecture/1-2 RAW

语音识别:Youtube 转文本
断句与标点:ChatGPT 4o
翻译:ChatGPT 4o

Повышение разрешения
超分辨率技术

Изображение низкого разрешения представляется в качестве результата деградационного процесса изображения в высоком разрешении, после чего определяется некоторый вид обратного преобразования от низкого разрешения к высокому и происходит подстройка параметров для уменьшения различия между исходным изображением в высоком разрешении и восстановленным. Наиболее распространенными типами интерполяции являются:
低分辨率图像作为高分辨率图像退化过程的结果呈现,随后定义了一种从低分辨率到高分辨率的逆变换类型,并调整参数以减少高分辨率原始图像与恢复图像之间的差异。最常见的插值类型包括:

Рассмотрим подробнее, как именно измеряется соответствие между исходным изображением и восстановленным. Сходство между двумя изображениями одинакового разрешения может быть задано как попиксельной метрикой на основе L1 или L2, так и более информативными обесхожностями, такими как SSIM и perceptual loss, а также взвешенной суммой всех перечисленных функций.
接下来我们详细讨论一下如何衡量原始图像与恢复图像之间的一致性。两个相同分辨率的图像之间的相似性可以用基于L1或L2的像素度量来表示,也可以用更有信息量的度量,如SSIM和感知损失,还可以是所有列出功能的加权总和。

Теперь перейдем к современным методам повышения разрешения исходного изображения. Данные методы построены на основе нейросетевых кодировщиков, которые на входе принимают изображения низкого разрешения, а на выходе получают изображения в высоком разрешении. На слайде представлены основные конструктивные элементы и общие схемы построения таких кодировщиков. Конструктивные блоки для данной задачи используются самые разные: от residual connections и skip connections до механизмов внимания и блоков пирамидального масштабирования. Здесь нас скорее интересуют сами парадигмы построения кодировщика в целом.
现在我们转向现代的提高原始图像分辨率的方法。这些方法基于神经网络编码器,其输入为低分辨率图像,输出为高分辨率图像。幻灯片中展示了这些编码器的主要构造元素和一般构造方案。用于此任务的构造模块种类繁多,从残差连接和跳跃连接到注意力机制和金字塔缩放块。这里我们更感兴趣的是编码器构造的总体范式。

  1. Прямое обучение: данная парадигма обусловлена сложностью прямого обучения отображению из низкоразмерного пространства в многомерное пространство, поэтому в подобных подходах используются традиционные алгоритмы повышения размерности для получения изображений с более высоким разрешением с последующим их улучшением с помощью нейросетевых кодировщиков. Иногда для повышения размерности используется обычная интерполяция, после чего используется движок для улучшения качества изображения с фиксированной размерностью. Мы рассмотрим такой механизм далее в нашей лекции.
    直接学习:这种范式是由于从低维空间到高维空间的直接学习的复杂性,因此在这些方法中使用传统的提高分辨率的算法来获得高分辨率图像,然后用神经网络编码器进行改进。有时使用常规插值来提高分辨率,然后使用引擎来改进固定分辨率的图像。我们将在本讲座中进一步讨论这种机制。
  2. Постепенное повышение разрешения: здесь нейросеть нужно только улучшить полученное на первой стадии изображение, что значительно снижает трудность обучения. Кроме того, такие модели могут принимать в качестве входных данных интерполированные изображения с произвольными размерами и коэффициентами масштабирования и давать высококачественные результаты. Также нельзя не отметить склонность данного подхода к порождению артефактов из-за грубого увеличения размерности на первых стадиях (post-upscaling resolution). Чтобы повысить вычислительную эффективность, возможно производить большую часть вычислений в низкоразмерном пространстве, не используя повышающие кодировщики, поскольку процесс извлечения признаков с наибольшими вычислительными затратами происходит только в низкоразмерном пространстве, и разрешение увеличивается только в конце. Вычислительная сложность значительно уменьшается.
    逐步提高分辨率:在这里,神经网络只需改进在第一阶段获得的图像,这显著降低了学习难度。此外,这些模型可以接受任意大小和缩放系数的插值图像作为输入,并提供高质量的结果。还应注意,由于在初始阶段粗略增加尺寸,这种方法倾向于产生伪影(后插值分辨率)。为了提高计算效率,可以在低维空间进行大部分计算,而不使用提升编码器,因为特征提取过程的最高计算成本仅发生在低维空间,并且只有在最后阶段才增加分辨率。计算复杂性显著降低。

Данные подходы получили наибольшее распространение. Progressively-upscaling resolution предполагает постепенное увеличение размерности, то есть несколько блоков пост-upscaling resolution, следующих друг за другом. Данный метод позволяет постепенно увеличивать размерность, что повышает точность по сравнению с классическим пост-upscaling resolution, при этом контролируя прирост накладных расходов на вычисления. Alternating downscaling and upscaling resolution предполагает чередование upscaling и downscaling. Наличие последнего позволяет представить всю схему в виде некоторого авто-кодировщика, что позволяет стабилизировать работу модели.
这些方法得到了最广泛的应用。逐步提高分辨率的方案假定逐步增加尺寸,即多个后插值分辨率块相继进行。与经典的后插值分辨率相比,该方法允许逐步增加尺寸,从而提高了准确性,同时控制计算开销的增加。交替降尺度和升尺度的分辨率方案假定交替进行升尺度和降尺度。后者的存在允许将整个方案表示为某种自编码器,从而稳定模型的运行。