MainPage/Computer Vision/Lecture/6-1 RAW
语音识别:Youtube 转文本
断句与标点:chatGPT 4o
翻译:chatGPT 4o
Сегодня мы поговорим о генерации изображений, причём рассмотрим эту задачу в контексте использования трёх типов инструментов. Вначале мы поговорим про авторегрессивные модели, затем мы перейдём к генеративно-состязательным сетям, которые чаще называют GAN-ами (от сочетания Generative Adversarial Networks). И в конце мы поговорим про вариационные автоэнкодеры.
今天我们将讨论图像生成,并且会在使用三种工具的背景下探讨这个任务。首先我们会谈论自回归模型,然后我们会转向生成对抗网络(通常称为GAN,来自Generative Adversarial Networks的缩写)。最后,我们会谈论变分自编码器。
Итак, как мы уже говорили, начнём мы с авторегрессивных моделей. Сама суть авторегрессии заключается в том, что модель в процессе вывода при генерации очередного фрагмента выходных данных использует уже сгенерированные на предыдущих шагах фрагменты. Среди преимуществ подобного подхода можно отметить фиксирование всего распределения данных, при этом гарантируется разнообразный набор сгенерированных выборок. Однако на практике авторегрессивные модели, как правило, ограничиваются изображениями с низким разрешением, поскольку сам процесс авторегрессии довольно требователен к памяти, и количество вычислений растёт с размером изображения.
那么,正如我们之前提到的,我们将从自回归模型开始。自回归的本质在于模型在生成输出数据的过程中使用在前几个步骤中生成的片段。此方法的优点之一是可以固定整个数据分布,同时保证生成样本的多样性。然而在实践中,自回归模型通常局限于低分辨率的图像,因为自回归过程对内存需求很高,并且计算量随着图像大小的增加而增长。
Обычно авторегрессивные модели довольно просты и характеризуются стабильным процессом обучения, в то время как GAN-ы зачастую нестабильны в процессе обучения, и сам процесс обучения довольно трудоёмкий. Модели авторегрессии рассматривают изображение как последовательность пикселов и представляют его вероятность как произведение условных вероятностей всех пикселов. Как показано на слайде, вероятность интенсивности каждого пиксела обусловлена всеми ранее сгенерированными пикселами. Другими словами, чтобы сгенерировать пиксел, нужны значения интенсивности всех ранее созданных пикселов. На слайде уже сгенерированные пикселы обозначены синим цветом, а генерируемый в данный момент — красным.
通常,自回归模型相对简单,且具有稳定的训练过程,而GAN在训练过程中往往不稳定,并且训练过程相当繁重。自回归模型将图像视为像素序列,并将其概率表示为所有像素条件概率的乘积。如幻灯片所示,每个像素的强度概率由之前生成的所有像素决定。换句话说,为了生成一个像素,需要所有之前创建的像素的强度值。幻灯片中已经生成的像素用蓝色表示,而当前生成的像素用红色表示。
Следует также отметить, что авторегрессивные модели вынуждены охватывать своей целевой функцией всё распределение данных. Они основаны на вероятностных моделях и обучаются по оценке максимального правдоподобия, что позволяет моделям хорошо генерализоваться. В последние годы было предпринято ряд попыток использования глубоких моделей авторегрессии для последовательного прогнозирования пикселов на изображении. Рассмотрим далее некоторые из наиболее известных глубоких авторегрессивных моделей.
还需要指出的是,自回归模型必须覆盖其目标函数的整个数据分布。它们基于概率模型,并通过最大似然估计进行训练,从而使模型能够很好地泛化。近年来,已经进行了一系列使用深度自回归模型进行图像像素序列预测的尝试。接下来,我们将介绍一些最著名的深度自回归模型。
Итак, начнём с самых базовых и глубоких моделей авторегрессии для генерации изображений. Такими архитектурами являются PixelCNN и PixelRNN. Общий принцип работы которых понятен уже из названия. Если PixelRNN использует свои рекуррентные сети, такие как LSTM, для сбора информации из ранее сгенерированных пикселов, то PixelCNN для выделения ранее сгенерированных пикселов использует маскированные свёртки. Процесс работы подобных сетей представлен на слайде.
那么,我们从最基本和最深度的图像生成自回归模型开始。这些架构包括PixelCNN和PixelRNN。从名称上就可以理解它们的工作原理。如果PixelRNN使用其递归网络(如LSTM)来收集之前生成的像素信息,那么PixelCNN使用掩蔽卷积来提取之前生成的像素信息。类似网络的工作过程在幻灯片中展示。
Более свежий вариант, Gated PixelCNN, объединяет в себе преимущества использования свёрток и рекуррентных сетей в глубоких архитектурах регрессивной автогенерации изображений. То есть архитектура объединяет идеи из PixelRNN и PixelCNN, используя маскированные свёртки с логическими схемами LSTM, обеспечивая производительность, сравнимую с PixelRNN в смысле метрики качества, и в то же время обучаясь так же быстро, как и PixelCNN. Основной конструктивный элемент такого семейства архитектур представлен на слайде.
更新的变体Gated PixelCNN结合了卷积和递归网络的优点,在深度自回归图像生成架构中。也就是说,这种架构结合了PixelRNN和PixelCNN的思想,使用带有LSTM逻辑结构的掩蔽卷积,在保证与PixelRNN相当的质量度量标准的同时,训练速度与PixelCNN一样快。这类架构的主要构造元素在幻灯片中展示。
Как мы узнали из прошлых лекций, одним из самых прогрессивных инструментов, который всё чаще в последнее время используется в компьютерном зрении и позволяет улучшать результаты при использовании его в качестве конструктивной идеи при построении глубоких нейросетевых архитектур, является механизм внимания. В архитектуре PixelSNAIL сочетаются маскированные свёртки и self-attention. На слайде представлены два ключевых конструктивных элемента данной архитектуры. Здесь вы можете видеть модернизированный Gated self-attention блок.
正如我们从之前的讲座中了解到的,近年来计算机视觉中越来越常用的一种最先进的工具是注意力机制,它作为构建深度神经网络架构的构造理念使用,可以改善结果。在PixelSNAIL架构中,掩蔽卷积与自注意力结合。在幻灯片中展示了该架构的两个关键构造元素。这里您可以看到改进的Gated自注意力模块。
Использование подобных конструкций позволяет не только концентрироваться на ключевых особенностях при выполнении операций регенерации изображений, но и бороться с затуханием градиентов, чем, собственно говоря, и известны используемые конструктивные идеи. Полная архитектура PixelSNAIL представлена на слайде. Несмотря на всю прогрессивность данного решения, нельзя не отметить, что, как и было сказано ранее, практически все авторегрессивные архитектуры генерации изображений сталкиваются с проблемами при попытке генерации изображения высокого разрешения из-за нерешённой проблемы утилизации ресурсов. Можно даже сказать, неразрешённой проблемы при использовании подобных подходов.
使用这种构造不仅可以在图像生成操作中专注于关键特征,还可以解决梯度消失问题,这也是这种构造理念的著名之处。PixelSNAIL的完整架构在幻灯片中展示。尽管这一解决方案非常先进,但需要指出的是,如前所述,几乎所有自回归图像生成架构在尝试生成高分辨率图像时都会遇到资源利用问题,实际上可以说是使用这种方法时未解决的问题。