失眠网 > 神经网络给图片生成标题神经网络提取图片特征

神经网络给图片生成标题神经网络提取图片特征

时间：2020-08-20 12:08:44

和神经网络有关，labelimg图片标注生成了xml文件，.xml里面记录了什么？希望有大神解答，感激不尽

。

首先说下打开方法：选择用IE打开或者notepad，然后里面从上到下分别记录了：1（folder）文件夹名称、2.（filename）图片名、3.（path）文件路径、4.（size）图片大小及深度、5.（object）目标的类别名称、（bndbox）边框坐标。

用神经网络中的代码标签必须与图片标注标签一致吗

CNN神经网络给图像分类（Matlab）

你要看你的图像是什么。如果是彩色数字，先转成灰度。用MNIST训练网络。如果是各种主题，用彩色的imageNET训练。如果你的数据量大到足以与数据集媲美，那么直接用你的数据训练网络即可。

在流行的数据集上训练完，你需要固定卷积池化层，只训练后面的全连接层参数，用你自己的数据集。CNN一是调整网络结构，几层卷积几层池化，卷积的模板大小等。

而是在确定结构上调整参数，weightscale，learningrate，reg等。

你用CNN做图像分类，无非是把CNN当成学习特征的手段，你可以吧网络看成两部分，前面的卷积层学习图像基本-中等-高层特征，后面的全连接层对应普通的神经网络做分类。

需要学习的话，首先你去看UFLDL教程。然后cs231n与其问别人，首先你看了imageNet数据集了吗？对于把流行数据集与自己数据混合训练模型的方法。如果两种数据十分相似，也未尝不可。

但是对于流行数据集而言，自己的标注数据量一般不会太大，如果是1：1000，1:100这种比例，那么可能不加自己的数据，完全用数据集训练的模型就能得到一个还好的结果。

如果自己的数据和数据集有些差别，那混在一起我认为自己的是在用自己的数据当做噪声加到数据集中。

cnn认为图像是局部相关的，而欺骗CNN的方法则主要出于，自然图像分布在一种流形结构中，训练的模型需要这种流形假设，而人工合成的图像由于添加非自然噪点，不满足模型假设，所以能用肉眼难分辨的噪声严重干扰分类结果。

如果二者相差过大，数据集是一种分布，你的数据是另一种，放到一起训练，我没试过，但我认为结果不会太好。这时候只能把数据集用来训练cnn的特征提取能力。而后用于分类的全连接层，视你的数据量调整规模。

卷积神经网络是怎么使用标签信息的？

第一、softmax是多分类器，有多个输出，比如说它有四个输出，对应分到4类概率，若在4个输出中第二个输出的概率最大，则判定为第二类。然后与数据的标签信息比较。

第二、框选的目标按像素点有个区域范围，识别目标是否在框里面，就要看所识别目标与这个区域范围的重合程度。

如何通过人工神经网络实现图像识别

。

人工神经网络（ArtificialNeuralNetworks）（简称ANN）系统从20世纪40年代末诞生至今仅短短半个多世纪，但由于他具有信息的分布存储、并行处理以及自学习能力等优点，已经在信息处理、模式识别、智能控制及系统建模等领域得到越来越广泛的应用。

尤其是基于误差反向传播（ErrorBackPropagation）算法的多层前馈网络（Multiple-LayerFeedforwardNetwork）(简称BP网络)，可以以任意精度逼近任意的连续函数，所以广泛应用于非线性建模、函数逼近、模式分类等方面。

目标识别是模式识别领域的一项传统的课题，这是因为目标识别不是一个孤立的问题，而是模式识别领域中大多数课题都会遇到的基本问题，并且在不同的课题中，由于具体的条件不同，解决的方法也不尽相同，因而目标识别的研究仍具有理论和实践意义。

这里讨论的是将要识别的目标物体用成像头(红外或可见光等)摄入后形成的图像信号序列送入计算机，用神经网络识别图像的问题。

一、BP神经网络BP网络是采用Widrow-Hoff学习算法和非线性可微转移函数的多层网络。一个典型的BP网络采用的是梯度下降算法，也就是Widrow-Hoff算法所规定的。

backpropagation就是指的为非线性多层网络计算梯度的方法。一个典型的BP网络结构如图所示。我们将它用向量图表示如下图所示。

其中：对于第k个模式对，输出层单元的j的加权输入为该单元的实际输出为而隐含层单元i的加权输入为该单元的实际输出为函数f为可微分递减函数其算法描述如下：（1）初始化网络及学习参数，如设置网络初始权矩阵、学习因子等。

（2）提供训练模式，训练网络，直到满足学习要求。（3）前向传播过程：对给定训练模式输入，计算网络的输出模式，并与期望模式比较，若有误差，则执行（4）；否则，返回（2）。

（4）后向传播过程：a.计算同一层单元的误差；b.修正权值和阈值；c.返回（2）二、BP网络隐层个数的选择对于含有一个隐层的三层BP网络可以实现输入到输出的任何非线性映射。

增加网络隐层数可以降低误差，提高精度，但同时也使网络复杂化，增加网络的训练时间。误差精度的提高也可以通过增加隐层结点数来实现。一般情况下，应优先考虑增加隐含层的结点数。

三、隐含层神经元个数的选择当用神经网络实现网络映射时，隐含层神经元个数直接影响着神经网络的学习能力和归纳能力。

隐含层神经元数目较少时，网络每次学习的时间较短，但有可能因为学习不足导致网络无法记住全部学习内容；隐含层神经元数目较大时，学习能力增强，网络每次学习的时间较长，网络的存储容量随之变大，导致网络对未知输入的归纳能力下降，因为对隐含层神经元个数的选择尚无理论上的指导，一般凭经验确定。

四、神经网络图像识别系统人工神经网络方法实现模式识别，可处理一些环境信息十分复杂，背景知识不清楚，推理规则不明确的问题，允许样品有较大的缺损、畸变，神经网络方法的缺点是其模型在不断丰富完善中，目前能识别的模式类还不够多，神经网络方法允许样品有较大的缺损和畸变，其运行速度快，自适应性能好，具有较高的分辨率。

神经网络的图像识别系统是神经网络模式识别系统的一种，原理是一致的。一般神经网络图像识别系统由预处理，特征提取和神经网络分类器组成。预处理就是将原始数据中的无用信息删除，平滑，二值化和进行幅度归一化等。

神经网络图像识别系统中的特征提取部分不一定存在，这样就分为两大类：①有特征提取部分的：这一类系统实际上是传统方法与神经网络方法技术的结合，这种方法可以充分利用人的经验来获取模式特征以及神经网络分类能力来识别目标图像。

特征提取必须能反应整个图像的特征。但它的抗干扰能力不如第2类。

②无特征提取部分的：省去特征抽取，整副图像直接作为神经网络的输入，这种方式下，系统的神经网络结构的复杂度大大增加了，输入模式维数的增加导致了网络规模的庞大。

此外，神经网络结构需要完全自己消除模式变形的影响。但是网络的抗干扰性能好，识别率高。当BP网用于分类时，首先要选择各类的样本进行训练，每类样本的个数要近似相等。

其原因在于一方面防止训练后网络对样本多的类别响应过于敏感，而对样本数少的类别不敏感。另一方面可以大幅度提高训练速度，避免网络陷入局部最小点。

由于BP网络不具有不变识别的能力，所以要使网络对模式的平移、旋转、伸缩具有不变性，要尽可能选择各种可能情况的样本。

例如要选择不同姿态、不同方位、不同角度、不同背景等有代表性的样本，这样可以保证网络有较高的识别率。

构造神经网络分类器首先要选择适当的网络结构：神经网络分类器的输入就是图像的特征向量；神经网络分类器的输出节点应该是类别数。隐层数要选好，每层神经元数要合适，目前有很多采用一层隐层的网络结构。

然后要选择适当的学习算法，这样才会有很好的识别效果。

在学习阶段应该用大量的样本进行训练学习，通过样本的大量学习对神经网络的各层网络的连接权值进行修正，使其对样本有正确的识别结果，这就像人记数字一样，网络中的神经元就像是人脑细胞，权值的改变就像是人脑细胞的相互作用的改变，神经网络在样本学习中就像人记数字一样，学习样本时的网络权值调整就相当于人记住各个数字的形象，网络权值就是网络记住的内容，网络学习阶段就像人由不认识数字到认识数字反复学习过程是一样的。

神经网络是按整个特征向量的整体来记忆图像的，只要大多数特征符合曾学习过的样本就可识别为同一类别，所以当样本存在较大噪声时神经网络分类器仍可正确识别。

在图像识别阶段，只要将图像的点阵向量作为神经网络分类器的输入，经过网络的计算，分类器的输出就是识别结果。五、仿真实验1、实验对象本实验用MATLAB完成了对神经网络的训练和图像识别模拟。

从实验数据库中选择0～9这十个数字的BMP格式的目标图像。图像大小为16×8像素，每个目标图像分别加10％、20％、30％、40％、50％大小的随机噪声，共产生60个图像样本。

将样本分为两个部分，一部分用于训练，另一部分用于测试。实验中用于训练的样本为40个，用于测试的样本为20个。随机噪声调用函数randn(m,n)产生。

2、网络结构本试验采用三层的BP网络，输入层神经元个数等于样本图像的象素个数16×8个。隐含层选24个神经元，这是在试验中试出的较理想的隐层结点数。

输出层神经元个数就是要识别的模式数目，此例中有10个模式，所以输出层神经元选择10个，10个神经元与10个模式一一对应。

3、基于MATLAB语言的网络训练与仿真建立并初始化网络%================S1=24;%隐层神经元数目S1选为24[R,Q]=size(numdata);[S2,Q]=size(targets);F=numdata;P=double(F);net=newff(minmax(P),[S1S2],{'logsig''logsig'},'traingda','learngdm')这里numdata为训练样本矩阵，大小为128×40，targets为对应的目标输出矩阵，大小为10×40。

newff(PR,[S1S2…SN],{TF1TF2…TFN}，BTF,BLF,PF)为MATLAB函数库中建立一个N层前向BP网络的函数，函数的自变量PR表示网络输入矢量取值范围的矩阵[Pminmax];S1~SN为各层神经元的个数；TF1~TFN用于指定各层神经元的传递函数；BTF用于指定网络的训练函数；BLF用于指定权值和阀值的学习函数；PF用于指定网络的性能函数，缺省值为‘mse’。

设置训练参数net.performFcn='sse';%平方和误差性能函数=0.1;%平方和误差目标=20;%进程显示频率net.trainParam.epochs=5000;%最大训练步数=0.95;%动量常数网络训练net=init(net);%初始化网络[net,tr]=train(net,P,T);％网络训练对训练好的网络进行仿真D=sim(net,P);A=sim(net,B);B为测试样本向量集,128×20的点阵。

D为网络对训练样本的识别结果，A为测试样本的网络识别结果。实验结果表明：网络对训练样本和对测试样本的识别率均为100％。如图为64579五个数字添加50%随机噪声后网络的识别结果。

六、总结从上述的试验中已经可以看出，采用神经网络识别是切实可行的，给出的例子只是简单的数字识别实验，要想在网络模式下识别复杂的目标图像则需要降低网络规模，增加识别能力，原理是一样的。

如何用Python和深度神经网络寻找相似图像

。

代码首先，读入TuriCreate软件包importturicreateastc我们指定图像所在的文件夹image，让TuriCreate读取所有的图像文件，并且存储到data数据框data=tc.image_analysis.load_images('./image/')我们来看看，data数据框的内容：datadata包含两列信息，第一列是图片的地址，第二列是图片的长宽描述。

下面我们要求TuriCreate给数据框中每一行添加一个行号。这将作为图片的标记，方便后面查找图片时使用，并输出查看data。

data=data.add_row_number()data下面，是重头戏。我们让TuriCreate根据输入的图片集合，建立图像相似度判别模型。

model=tc.image_similarity.create(data)这个语句执行起来，可能需要一些时间。如果你是第一次使用TuriCreate，它可能还需要从网上下载一些数据。请耐心等待。

经过或长或短的等待，模型已经成功建立。下面，我们来尝试给模型一张图片，让TuriCreate帮我们从目前的图片集合里，挑出最为相似的10张来。为了方便，我们就选择第一张图片作为查询输入。

我们利用show()函数展示一下这张图片。tc.Image(data[0]['path']).show()下面我们来查询，我们让模型寻找出与这张图片最相似的10张。

similar_images=model.query(data[0:1],k=10)我们把结果存储在了similar_images变量里面，下面我们来看看其中都有哪些图片。

similar_images返回的结果一共有10行。跟我们的要求一致。每一行数据，包含4列。

分别是：查询图片的标记获得结果的标记结果图片与查询图片的距离结果图片与查询图片近似程度排序值有了这些信息，我们就可以查看到底哪些图片与输入查询图片最为相似了。

注意其中的第一张结果图片，其实就是我们的输入图片本身。考虑它没有意义。我们提取全部结果图片的标记（索引）值，忽略掉第一张（自身）。

similar_image_index=similar_images['reference_label'][1:]把上面9张图片的标记在所有图片的索引列表中过滤出来：filtered_index=data['id'].apply(lambdax:xinsimilar_image_index)filtered_index验证完毕以后，请执行以下语句。

我们再次调用TuriCreate的explore()函数，展现相似度查询结果图片。data[filtered_index].explore()。