中企动力 > 头条 > python中pil

网站性能检测评分

注:本网站页面html检测工具扫描网站中存在的基本问题,仅供参考。

python中pil

解读Keras在ImageNet中应用:详解5种图像识别模型 营销视频课程

img

昌立辉

关注

更多深度文章,请关注:https://yq.aliyun/cloud

几个月前,我写了一篇关于如何使用CNN(卷积神经网络)尤其是VGG16来分类图像的教程,该模型能够以很高的精确度识别我们日常生活中的1000种不同种类的物品。

那时,模型还是和Keras包分开的,我们得从free-standingGitHubrepo上下载并手动安装;现在模型已经整合进Keras包,原先的教程也已经不再适用,所以我决定写一篇新的教程。

在教程中,你将学习到如何编写一个Python脚本来分类你自己的图像。

博客结构

1.简要说明一下这几个网络架构;

2.使用Python编写代码:载入训练好的模型并对输入图像分类;

3.审查一些样本图片的分类结果。

Keras中最新的深度学习图像分类器

Keras提供了五种开箱即用型的CNN:

1.VGG16

2.VGG19

3.ResNet50

4.InceptionV3

5.Xception

什么是ImageNet

ImageNet曾是一个计算机视觉研究项目:(人工)打标签并分类成22000个不同物品种类。然而,当我们在讨论深度学习和CNN的时候,“ImageNet”意味着ImageNetLargeScaleVisualRecognitionChallenge,简写为ILSVRC。

ILSVRC的目的是训练一个能够正确识别图像并分类(1000种)的模型:模型使用约120万张图像用作训练,5万张图像用作验证,10万张图像用作测试。

这1000种分类涵盖了我们的日常生活接触到的东西,具体列表请点击。

在图像分类上,ImageNet竞赛已经是计算机视觉分类算法事实上的评价标准——而自2012年以来,排行榜就被CNN和其它深度学习技术所统治。

过去几年中ImageNet竞赛里表现优异的模型在Keras中均有收录。通过迁移学习,这些模型在ImageNet外的数据集中也有着不错的表现。

VGG16和VGG19

图1:VGG网络架构(source)

VGG网络架构于2014年出现在Simonyan和Zisserman中的论文中,《VeryDeepConvolutionalNetworksforLargeScaleImageRecognition》。

该架构仅仅使用堆放在彼此顶部、深度不断增加的3×3卷积层,并通过maxpooling来减小volume规格;然后是两个4096节点的全连接层,最后是一个softmax分类器。“16”和“19”代表网络中权重层的数量(表2中的D和E列):

在2014年的时候,16还有19层网络还是相当深的,Simonyan和Zisserman发现训练VGG16和VGG19很有难度,于是选择先训练小一些的版本(列A和列C)。这些小的网络收敛后被用来作为初始条件训练更大更深的网络——这个过程被称为预训练(pre-training)。

预训练很有意义,但是消耗大量时间、枯燥无味,在整个网络都被训练完成前无法进行下一步工作。

如今大部分情况下,我们已经不再使用预训练,转而采用Xaiver/Glorot初始化或者MSRA初始化(有时也被称作Heetal.初始化,详见《DelvingDeepintoRectifiers:SurpassingHuman-LevelPerformanceonImageNetClassification》)。如果你感兴趣,可以从这篇文章中理解到weightinitialization的重要性以及深度神经网络的收敛——《Allyouneedisagoodinit,MishkinandMatas(2015)》。

VGGNet有两个不足:

1.训练很慢;

2.weights很大。

由于深度以及全连接节点数量的原因,VGG16的weights超过533MB,VGG19超过574MB,这使得部署VGG很令人讨厌。虽然在许多深度学习图像分类问题中我们仍使用VGG架构,但是小规模的网络架构更受欢迎(比如SqueezeNet,GoogleNet等等)。

ResNet

与AlexNet、OverFeat还有VGG这些传统顺序型网络架构不同,ResNet的网络结构依赖于微架构模组(micro-architecturemodules,也被称为network-in-networkarchitectures)。

微架构模组指构成网络架构的“积木”,一系列的微架构积木(连同你的标准CONV,POOL等)共同构成了大的架构(即最终的网络)。

ResNet于2015年出现在Heetal的论文《DeepResidualLearningforImageRecognition》中,它的出现很有开创性意义,证明极深的网络也可以通过标准SGD(以及一个合理的初始化函数)来训练:

图3:Heetal.于2015年提出的残差模组

在2016年的著作《IdentityMappingsinDeepResidualNetworks》中,他们证实了可以通过更新残差模组(residualmodule)来使用标志映射(identifymappings),达到提高精度的目的。

图4:(左)原始残差模组(右)使用预激活(pre-activation)更新的残差模组

尽管ResNet比VGG16还有VGG19要深,weights却要小(102MB),因为使用了全局平均池化(globalaveragepooling),而不是全连接层。

InceptionV3

“Inception”微架构于2014年出现在Szegedy的论文中,《GoingDeeperwithConvolutions》。

图5:GoogleNet中使用的Inception模组原型

Inception模组的目的是扮演一个“多级特征提取器”,在网络相同的模组内计算1×1、3×3还有5×5的卷积——这些过滤器的输出在输入至网络下一层之前先被堆栈到channeldimension。

该架构的原型被称为GoogleNet,后继者被简单的命名为InceptionvN,N代表Google推出的数字。

Keras中的InceptionV3架构来自于Szegedyetal.的后续论文,《RethinkingtheInceptionArchitectureforComputerVision(2015)》,该论文打算通过更新inception模组来提高ImageNet分类的准确度。

InceptionV3比VGG还有ResNet都要小,约96MB。

Xception

图6:Xception架构

Xception是被FranoisChollet提出的,后者是Keras库的作者和主要维护者。

Xception是Inception架构的扩展,用depthwise独立卷积代替Inception标准卷积。

关于Xception的出版物《DeepLearningwithDepthwiseSeparableConvolutions》可以在这里找到。

Xception最小仅有91MB。

SqueezeNet

Figure7:“fire”模组,由一个“squeeze”和一个“expand”模组组成。(Iandolaetal.,2016)

仅仅4.9MB的SqueezeNet架构能达到AlexNet级别的精确度(~57%rank-1and~80%rank-5),这都归功于“fire”模组的使用。然而SqueezeNet的训练很麻烦,我会在即将出版的书——《DeepLearningforComputerVisionwithPython》——中介绍如何训练SqueezeNet来处理ImageNet数据集。

使用Python和Keras通过VGGNet,ResNet,Inception和Xception对图像分类

新建一个文件,命名为classify_image.py,编辑插入下列代码1#importthenecessarypackages2fromkeras.applicationsimportResNet503fromkeras.applicationsimportInceptionV34fromkeras.applicationsimportXception#TensorFlowONLY5fromkeras.applicationsimportVGG166fromkeras.applicationsimportVGG197fromkeras.applicationsimportimagenet_utils8fromkeras.applications.inception_v3importpreprocess_input9fromkeras.preprocessing.imageimportimg_to_array10fromkeras.preprocessing.imageimportload_img11importnumpyasnp12importargparse13importcv2

第2-13行导入需要的包,其中大部分都属于Keras。

第2-6行分别导入ResNet,InceptionV3,Xception,VGG16,还有VGG19——注意Xception只兼容TensorFlow后端。

第7行导入的image_utils包包含了一系列函数,使得对图片进行前处理以及对分类结果解码更加容易。

余下的语句导入其它有用的函数,其中NumPy用于数学运算,cv2用于与OpenCV结合。15#constructtheargumentparseandparsethearguments16ap=argparse.ArgumentParser()17ap.add_argument("-i","--image",required=True,18help="pathtotheinputimage")19ap.add_argument("-model","--model",type=str,default="vgg16",20help="nameofpre-trainednetworktouse")21args=vars(ap.parse_args())

--image为希望进行分类的图像的路径。

--model为选用的CNN的类别,默认为VGG16。23#defineadictionarythatmapsmodelnamestotheirclasses24#insideKeras25MODELS={26"vgg16":VGG16,27"vgg19":VGG19,28"inception":InceptionV3,29"xception":Xception,#TensorFlowONLY30"resnet":ResNet5031}3233#esnureavalidmodelnamewassuppliedviacommandlineargument34ifargs["model"]notinMODELS.keys():35raiseAssertionError("The--modelcommandlineargumentshould"36"beakeyinthe`MODELS`dictionary")

第25-31行定义了一个词典,将类映射到对应的模型名称。

如果没有在该词典中找到“--model”,就会报错。

输入一个图像到一个CNN中会返回一系列键值,包含标签及对应的概率。

ImageNet采用的图像尺寸一般为224×224,227×227,256×256,and299×299,但是并不是绝对。

VGG16,VGG19以及ResNet接受224×224的输入图像,而InceptionV3和Xception要求为299×299,如下代码所示:38#initializetheinputimageshape(224x224pixels)alongwith39#thepre-processingfunction(thismightneedtobechanged40#basedonwhichmodelweusetoclassifyourimage)41inputShape=(224,224)42preprocess=imagenet_utils.preprocess_input4344#ifweareusingtheInceptionV3orXceptionnetworks,thenwe45#needtosettheinputshapeto(299x299)[ratherthan(224x224)]46#anduseadifferentimageprocessingfunction47ifargs["model"]in("inception","xception"):48inputShape=(299,299)49preprocess=preprocess_input

这里我们初始化inputShape为224×224像素,初始化预处理函数为keras.preprocess_input——执行meansubtraction运算。

如果使用Inception或者Xception,inputShape需要改为299×299像素,预处理函数改为separatepre-processing函数。

下一步就是从磁盘载入网络架构的weights,并实例化模型:51#loadourthenetworkweightsfromdisk(NOTE:ifthisisthe52#firsttimeyouarerunningthisscriptforagivennetwork,the53#weightswillneedtobedownloadedfirst--dependingonwhich54#networkyouareusing,theweightscanbe90-575MB,sobe55#patient;theweightswillbecachedandsubsequentrunsofthis56#scriptwillbe*much*faster)57print("[INFO]loading{}...".format(args["model"]))58Network=MODELS[args["model"]]59model=Network(weights="imagenet")

注意:VGG16和VGG19的weights大于500MB,ResNet的约等于100MB,Inception和Xception的介于90-100MB之间。如果这是你第一次运行某个网络,这些weights会自动下载到你的磁盘。下载时间由你的网络速度决定,而且下载完成后,下一次运行代码不再需要重新下载。61#loadtheinputimageusingtheKerashelperutilitywhileensuring62#theimageisresizedto`inputShape`,therequiredinputdimensions63#fortheImageNetpre-trainednetwork64print("[INFO]loadingandpre-processingimage...")65image=load_img(args["image"],target_size=inputShape)66image=img_to_array(image)6768#ourinputimageisnowrepresentedasaNumPyarrayofshape69#(inputShape[0],inputShape[1],3)howeverweneedtoexpandthe70#dimensionbymakingtheshape(1,inputShape[0],inputShape[1],3)71#sowecanpassitthroughthenetwork72image=np.expand_dims(image,axis=0)7374#pre-processtheimageusingtheappropriatefunctionbasedonthe75#modelthathasbeenloaded(i.e.,meansubtraction,scaling,etc.)76image=preprocess(image)

第65行从磁盘载入输入图像,并使用提供的inputShape初始化图像的尺寸。

第66行将图像从PIL/Pillow实例转换成NumPy矩阵,矩阵的shape为(inputShape[0],inputShape[1],3)。

因为我们往往使用CNN来批量训练/分类图像,所以需要使用np.expand_dims在矩阵中添加一个额外的维度,如第72行所示;添加后矩阵shape为(1,inputShape[0],inputShape[1],3)。如果你忘记添加这个维度,当你的模型使用.predict时会报错。

最后,第76行使用合适的预处理函数来执行meansubtraction/scaling。

下面将我们的图像传递给网络并获取分类结果:78#classifytheimage79print("[INFO]classifyingimagewith'{}'...".format(args["model"]))80preds=model.predict(image)81P=imagenet_utils.decode_predictions(preds)8283#loopoverthepredictionsanddisplaytherank-5predictions+84#probabilitiestoourterminal85for(i,(imagenetID,label,prob))inenumerate(P[0]):86print("{}.{}:{:.2f}%".format(i+1,label,prob*100))

第80行调用.predict函数,并从CNN返回预测值。

第81行的.decode_predictions函数将预测值解码为易读的键值对:标签、以及该标签的概率。

第85行和86行返回最可能的5个预测值并输出到终端。

案例的最后一件事,是通过OpenCV从磁盘将输入图像读取出来,在图像上画出最可能的预测值并显示在我们的屏幕上。88#loadtheimageviaOpenCV,drawthetoppredictionontheimage,89#anddisplaytheimagetoourscreen90orig=cv2.imread(args["image"])91(imagenetID,label,prob)=P[0][0]92cv2.putText(orig,"Label:{},{:.2f}%".format(label,prob*100),93(10,30),cv2.FONT_HERSHEY_SIMPLEX,0.8,(0,0,255),2)94cv2.imshow("Classification",orig)95cv2.waitKey(0)

VGGNet,ResNet,Inception,和Xception的分类结果

所有的例子都是使用2.0以上版本的Keras以及TensorFlow后台做的。确保你的TensorFlow版本大于等于1.0,否则会报错。所有例子也都使用Theano后端做过测试,工作良好。

案例需要的图片以及代码请前往原文获取。

使用VGG16分类:1$pythonclassify_image.py--imageimages/soccer_ball.jpg--modelvgg16

图8:使用VGG16来分类足球(source)

输出为:soccer_ball,精确度为93.43%。

如果要使用VGG19,只需要替换下--network参数。1$pythonclassify_image.py--imageimages/bmw.png--modelvgg19

图9:使用VGG19来分类汽车(source)

输出为:convertible(敞篷车),精确度为91.76%。然而,我们看一下其它的4个结果:sportscar(跑车),4.98%(也对);limousine(豪华轿车),1.06%(不正确,但也合理);carwheel(车轮),0.75%(技术上正确,因为图中确实出现了轮子)。

从下面的例子,我们可以看到类似的结果:1$pythonclassify_image.py--imageimages/clint_eastwood.jpg--modelresnet

图10:使用ResNet分类(source).

ResNet成功将图像分类为revolver(左轮手枪),精确度69.79%。有趣的是rifle(步枪)为7.74%,assaultrifle(突击步枪)为5.63%。考虑到revolver的观察角度还有相对于手枪来说巨大的枪管,CNN得出这么高的概率也是合理的。1$pythonclassify_image.py--imageimages/jemma.png--modelresnet

图11:使用ResNet对狗进行分类

狗的种类被正确识别为beagle(小猎兔狗),精确度94.48%。

然后我试着分类《加勒比海盗》中的图片:1$pythonclassify_image.py--imageimages/boat.png--modelinception

图12:使用ResNet对沉船进行分类(source)

尽管ImageNet中有“boat”(船)这个类别,Inception网络仍然正确地将该场景识别为“(ship)wreck”(沉船),精确度96.29%。其它的标签,比如“seashore”(海滩),“canoe”(独木舟),“paddle”(桨),还有“breakwater”(...

Python提取图片中的文字信息,腾讯内部技术,一行代码搞定! 行业视频课程

img

女神

关注

用过手机QQ就知道,点击一个图片会弹出一个小功能,那就是提取图片中的文字。非常方便实用,那么很难实现吗?

利用Python提取图片中的文字信息,只需要一行代码就能搞定!

当然,这是吹牛皮的,但是真正的Python代码也就第4行,说是一行代码搞定也没错。

示例:

效果

尽管运行Python代码后也有几个错误的地方,但是大部分是识别正确的。你以为就这样结束了吗?那这么简单,我都不用出教程了。一行代码实现这个功能当然也是要有前戏的。

一,pytesseract和PIL的安装

pip安装

2,pycharm编辑器能够快速安装,这就看你是否用pycharm了。

pycharm的Settings设置页按照下面步骤操作

安装好了pytesseract,安装PIL在上面第三步里搜索PIL并点击安装就可以了。

安装好了所有库,运行下面Python代码

出现报错

可以看到提示:未安装识别引擎tesseract-ocr

二,安装识别引擎tesseract-ocr

1.网上下载安装包,然后直接点击安装即可

因为tesseract-ocr默认不支持中文识别,所以解压安装tesseract-ocr后还需做如下操作

2,安装完成tesseract-ocr后,我们还需配置好

打开后做如下操作

当然也能由pycharm快速打开pytesseract.py

第一步:

第二步:

第三步:

现在已经完成了所有配置,运行下面Python代码即可实现图片里的文字提取

本文到此就结束了,希望各位Python越学越好,早日达成梦想。

python使用PIL库合并图片 流量视频课程

img

彭文博

关注

本文研究的主要是python PIL实现图片合成的相关内容,具体介绍如下,分享实例代码。

在项目中需要将两张图片合在一起。遇到两种情况,一种就是两张非透明图片的合成, 一种是涉及到透明png的合成。

相关API见 http://pillow.readthedocs.io/en/latest/reference/Image.html

第一种情况,直接将两张图片合在一起就可以了。如下图所示,将两张图片合在一起

将第1张和第2张合成第3张

详细代码

第一种情况时候规则的图片进行合并,比如矩形,难以对于任意形状的图片。对于任意形状的合并可以

第二种情况,将非透明的图片放在底部,上面放一张局部透明的png图片,然后合成一张图片。

img

在线咨询

建站在线咨询

img

微信咨询

扫一扫添加
动力姐姐微信

img
img

TOP