View on GitHub

ITMO-PE

My study notes about Program Engineering at University ITMO

MainPage/Computer Vision/Lecture/7-4 RAW

语音识别:Youtube 转文本 断句与标点: 翻译:

Продолжая разговор о дескрипторах изображений, помимо низкоуровневых примитивов, хэш-функций от сырых изображений, а также высокоуровневых статистических признаков, таких как гистограммы, возможно обучить ещё и нейросетевой классификатор на общую задачу и использовать промежуточное представление, полученное с внутренних слоев свёрточной нейросети в качестве дескриптора изображений.
继续谈论图像描述符,除了低级别的原始图像哈希函数和统计特征(如直方图)之外,还可以针对一般任务训练一个神经网络分类器,并使用从卷积神经网络内部层获得的中间表示作为图像描述符。

Дело в том, что в ходе работы нейросетевого кодировщика, а конкретно свёрточного нейросетевого кодировщика, как мы рассматривали в лекции про классификаторы, происходит как раз извлечение характерных признаков разной степени общности. В начале признаки являются более низкоуровневыми, и чем ближе извлекаемые фичи к выходному слою, тем более высокоуровневые и общие признаки, тем более они ответственны за семантику происходящего на изображении с точки зрения смысла, который вкладывает в него человек, относя данное изображение к той или иной категории.
事实上,在神经网络编码器(特别是卷积神经网络编码器)的工作过程中,正如我们在分类器讲座中讨论的那样,会提取不同程度的特征。在开始时,这些特征是更低级别的,越接近输出层,提取的特征就越高级、越通用,它们越能反映图像中发生的事情的语义,从人的角度来看,将图像归类为某一类别。

Этим можно и нужно пользоваться. Поэтому использование промежуточного представления из глубокой свёрточной сети вполне себя хорошо зарекомендовало на практике в качестве метода получения дескриптора изображений.
这是一种可以并且应该使用的方法。因此,使用深度卷积网络的中间表示在实践中已被证明是一种有效的图像描述符获取方法。

Ну и напоследок рассмотрим общую схему. Система искусственного интеллекта, в частности на основе данной схемы, может быть реализован движок анализа изображений, который обязательно в одной из своих стадий в явном или неявном виде включает в себя фич инжиниринг, а точнее фича extraction, который получается в качестве результата исследования ключевых признаков, то есть фич инжиниринга.
最后,让我们来看一下总体方案。基于该方案的人工智能系统,特别是在其某个阶段,无论是显式还是隐式地,都会包含特征工程,更具体地说是特征提取,作为研究关键特征(即特征工程)结果的一部分。

Опять же отметим, что данный этап в разработке общей системы аналитики является ключевым. Не имея качественных фич, невозможно построить ни одну успешную систему анализа исходных данных. Поэтому желательно производить максимально полное, максимально общее и комплексное одновременно исследование всех возможных подходов для получения ключевых признаков из изображений на разной степени абстракции, на разной степени общности, от низкоуровневых до семантических высокоуровневых.
我们再次强调,这个阶段在开发整体分析系统中是关键的。如果没有高质量的特征,就无法构建任何成功的原始数据分析系统。因此,最好同时进行全面、综合的研究,探索所有可能的方法,以从不同抽象层次和不同程度的通用性中获取图像的关键特征,从低级别到高级语义特征。

Именно такой подход обеспечит наиболее эффективное решение с точки зрения метрик качества. Но опять же на практике, как правило, ресурсов и времени для проведения слишком масштабного исследования может не хватать. Поэтому мы рассмотрели с вами наиболее популярные, распространённые подходы, применяемые на разных степенях абстракции, от низкоуровневых примитивов до перцептивных и нейросетевых дескрипторов. Сочетание, комбинирование подобных подходов, как правило, позволяет хотя бы в первом приближении создать приемлемое качество на этапе разработки движка по выделению ключевых признаков, то есть на этапе фич инжиниринга.
这种方法可以从质量指标的角度提供最有效的解决方案。但在实践中,通常没有足够的资源和时间进行如此大规模的研究。因此,我们讨论了在不同抽象层次上应用的最流行、最常见的方法,从低级别的原语到感知和神经网络描述符。这些方法的结合通常可以至少在初步创建描述符引擎的开发阶段,达到可接受的质量,即特征工程阶段。

На этом лекция окончена. Спасибо за внимание.
这次讲座就到这里。谢谢大家的关注。