View on GitHub

ITMO-PE

My study notes about Program Engineering at University ITMO

MainPage/Computer Vision/Lecture/3-3 RAW

语音识别:Youtube 转文本 断句与标点:chatGPT 4o 翻译:chatGPT 4o

Глубокие нейросетевые архитектуры для детектирования текстовых фрагментов на изображении
用于检测图像中文本片段的深度神经网络架构

Рассмотрим теперь наиболее важные частные случаи задачи детектирования объектов. Первым таким частным случаем будет детектирование текста. Данная задача имеет огромное прикладное значение в стеке оптического распознавания текста.
现在让我们来看看目标检测任务中最重要的特殊情况。第一个这样的特殊情况是文本检测。这个任务在光学字符识别(OCR)技术栈中具有巨大的应用意义。

Первый подход к детектированию текста, который мы рассмотрим, — это архитектура сети PEN. Сначала картинка обрабатывается свёрточным кодировщиком на основе VGG16. Данную архитектуру мы рассматривали в нашей лекции про классификацию изображений. После чего сканирующее окно проходит по скрытому представлению и подаётся на вход двунаправленному LSTM. Таким образом, данная конструкция способна обрабатывать последовательности произвольной длины.
我们将要讨论的第一个文本检测方法是PEN网络架构。首先,图像通过基于VGG16的卷积编码器进行处理。我们在关于图像分类的讲座中讨论了这种架构。然后,扫描窗口在隐藏表示上移动,并输入到双向LSTM中。因此,该结构能够处理任意长度的序列。

Из недостатков данного подхода можно отметить невысокую скорость работы из-за использования LSTM. Проблемы, возникающие из-за использования LSTM, решает архитектура EAST. Здесь вместо LSTM-блоков используются только свёртки. Более того, данная модель решает ещё одну очень важную проблему: из-за варьирования положения текста в пространстве, детектирование с помощью bounding boxes, стороны которых параллельны сторонам исходного изображения, может показывать низкую эффективность. Более того, из-за несоответствия формы полученных таким образом bounding boxes и реальных габаритов текста, такие данные детектирования могут сильно ухудшить последующее распознавание текста, если они используются в стеке оптического распознавания.
这种方法的缺点之一是由于使用LSTM,工作速度较慢。使用LSTM带来的问题通过EAST架构得到了解决。在这里,使用的是卷积而不是LSTM模块。此外,该模型还解决了另一个非常重要的问题:由于文本在空间中的位置变化,使用与原始图像边界平行的边界框(bounding boxes)进行检测可能效率较低。此外,由于这样获得的边界框与文本的实际尺寸不匹配,这些检测数据如果用于OCR技术栈中,会大大降低后续的文本识别效果。

В таких случаях принято предсказывать повернутые bounding boxes или вовсе ограничивать текст многоугольниками вместо прямоугольников. Идея детекторов в том, чтобы предсказывать не координаты углов боксов, а следующие вещи: во-первых, текст score map, то есть вероятность нахождения текста в каждом пикселе; во-вторых, углы поворота каждого бокса; в-третьих, расстояние до границ прямоугольника для каждого пикселя. Таким образом, это больше напоминает задачу сегментирования, то есть выделение масок текста, нежели детектирования, но при этом охватывающий четырёхугольник для строк текста определяется максимально точно.
在这种情况下,通常会预测旋转的边界框,或者干脆用多边形来限制文本而不是矩形。检测器的理念是预测以下几项,而不是边界框的角点坐标:首先,文本得分图(text score map),即每个像素中存在文本的概率;其次,每个边界框的旋转角度;第三,每个像素到矩形边界的距离。因此,这更像是分割任务,即提取文本的掩膜,而不是检测任务,但同时为文本行确定的四边形是最准确的。