失眠网 > 【深度学习】CVPR ｜白翔团队新作：借助CLIP完成场景文字检测

【深度学习】CVPR ｜白翔团队新作：借助CLIP完成场景文字检测

时间：2021-09-30 22:16:57

作者丨Garfield

编辑丨极市平台

极市导读

本文提出了一种新方法，称为 TCM，专注于将 CLIP 模型直接用于文本检测，无需预训练过程。

原文链接：/pdf/2302.14338.pdf

代码链接：/wenwenyu/TCM

2. 引言

场景文字检测（Scene text detection）旨在从自然图像中定位每个文本实例的边界框或多边形，因为它具有广泛的实际应用场景，如办公自动化、即时翻译、自动驾驶和在线教育。随着全监督深度学习技术的快速发展，场景文本检测取得了显着进步。尽管监督方法在文本检测领域取得了显着进步，但它们需要广泛而精细的注释，例如字符级、单词级和文本行级边界框，尤其是用于任意形状场景文本的多边形框。所以，研究少量标记数据下的文本检测方法非常重要，即少样本训练市非常有意义的。

最近，通过利用预训练的视觉和语言知识，大规模对比语言-图像预训练的CLIP模型在各种视觉任务中展示了非常强大的能力。而作为语言和视觉模态信息的桥梁，很自然而然地会开始思考，能不能借助CLIP完成 Scene text detection呢？

与一般的目标检测相比，自然图像中的场景文本通常同时呈现视觉和丰富的字符信息，这与CLIP模型有着天然的联系。因此，如何充分利用来自视觉、语义和文本知识的跨模态信息来提高文本检测模型的性能在最近的研究中受到越来越多的关注。例如，受 CLIP 启发，Song等人采用细粒度的跨模态交互来对齐单模态embedding，以便通过精心设计的预训练任务学习更好的representation。Xue提出了一种弱监督预训练方法来联合学习和对齐视觉和部分文本信息，以学习用于场景文本检测的有效视觉文本表示。与之前的方法相比，本文提出了一种新方法，称为TCM。这个方法的重点是将CLIP模型直接用于文本检测而不需要预训练过程。但是如下图所示，他们都是two-stage的，显然不够直接和高效，也无法进行迁移泛化。

可以看到，之前的两种方法都需要完成两个部分，即对text或者image的encoder进行先预训练，然后进行fine-tuning。但是由于CLIP强大的zeo-shot和few-shot能力，我们其实已经拥有了一个超级强大的text encoder，所以fine-tuning就显得不那么重要，而直接进行text embedding和visual embedding的matching显然是一种更加高效和直接的方法。与其他基于视觉语言模型的预训练方法相比，TCM具有以下优点：

它可以应用于改进现有的场景文本检测器。

它便于现有方法进行少样本训练，例如使用10%的标记数据，新方法在4个基准测试中平均提高了22%的F-measure。

通过将CLIP模型转换为现有的场景文本检测方法，进一步实现了有前途的领域自适应能力。

3. 方法

本文的framework其实很直接，来看具体是怎么完成的。

3.1 CLIP的回顾

首先回顾一下CLIP，CLIP收集了 4 亿个图文对用于模型预训练，很好地展示了学习可迁移知识和开放式视觉概念的潜力。CLIP模型是天生的文多模态模型，可以有效抽象图像和文本之间的latent space空间。可以发现模型可以比较好地完成文字内容的匹配，

给定一批图像-文本对，对于每个图像，CLIP 最大化与匹配文本的余弦相似度，同时最小化与所有其他不匹配文本的余弦相似度。对于每个文本，也就是对比学习的思路。然而，要利用此类模型中的相关信息，有两个先决条件：1）有效地从 CLIP 请求先验知识的适当方法。2)原始模型只能衡量整合图像与单个词或句子之间的相似度。对于场景文本检测，每张图像通常有很多文本实例，都需要等价地完成ecall。来看作者是如何完成的。

3.2 把CLIP变成Text Detector

为了将 CLIP 模型转变为场景文本检测器，我们提出了 TCM，如图上图所示。TCM 是一个可插入的模块，可以直接应用于增强现有的场景文本检测器。它分别从 CLIP 模型的图像编码器和文本编码器中提取图像和文本embedding。然后方法通过视觉提示学习设计跨模态交互机制从 CLIP 的图像编码器中恢复局部特征，可以捕获细粒度信息以响应粗文本区域，用于后续文本实例和语言之间的匹配。为了更好地引导预训练知识，引入了一个语言提示生成器来为每个图像生成条件提示，并设计了一个视觉提示生成器来学习图像提示，以适应文本检测任务的冻结剪辑文本编码器。TCM只需稍作修改即可直接适用于更广泛的文本检测方法。

Image Encoder：使用了预训练的ResNet50作为图像编码器。ResNet50是一种卷积神经网络来编码图像，图像编码器输出image encoder。

Text Encoder：使用了CLIP的预训练文本编码器作为文本编码器。该文本编码器将输入的K个类别提示嵌入到连续向量空间R^C中，生成文本嵌入作为文本编码器的输出，其中。具体来说，K设置为1，因为在文本检测任务中只有一个文本类别。

Language Prompt Generator：用于自适应地从文本特征向视觉特征传播细粒度语义信息。具体来说，使用Transformer中的交叉注意力机制来建模图像embedding(Q)和文本embedding(K,V)之间的交互作用。然后学习视觉的prompts，将信息从图像级别传输到文本实例级别。

Visual Prompt Generator: 同样的机制，而其主要作用是传播细粒度的视觉语义信息，以便更准确地匹配文本实例并生成精确的分割得分图。

给定的输出text和image的encoder，方法对文本感知局部图像执行文本实例语言匹配对齐对两个embedding进行 sigmoid 激活以获得二进制分数图。再进行matching：

P也就是输出的score map。

最后联合det的loss进行优化

4. 实验

实验结果表明，该方法可以显著提高现有文本检测器的性能，并具有较强的few-shot训练能力和泛化能力。此外，与先前的预训练方法相比，该方法在性能上具有竞争力。最后，作者还对所提出的设计进行了敏感性分析。因此，该文提出的TCM方法是一种有效且具有潜力的文本检测框架。

可以发现相较于其他无论是回归还是分割的模型，都具有明显的优势，让我们提会到了CLIP这种预训练模型巨大的潜力。

few-shot的能力更加能体现出相应的优势，我认为这是受益于CLIP强大的泛化性。

进行domain之间的切换，也具有较强的能力。

5. 结论

本文提出了一种基于TCM方法的文本检测框架，该方法可以直接从CLIP模型中挖掘先前的知识，无需预训练过程。实验结果表明，该方法可以显著提高现有文本检测器的性能，并具有较强的few-shot训练能力和泛化能力。此外，与先前的预训练方法相比，该方法在性能上具有竞争力。因此，该文提出的TCM方法是一种有效且具有潜力的文本检测框架。

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419，加入微信群请扫码

如果觉得《【深度学习】CVPR ｜白翔团队新作：借助CLIP完成场景文字检测》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。