失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > PHP实现采集抓取淘宝网单个商品信息 抓取商品信息

PHP实现采集抓取淘宝网单个商品信息 抓取商品信息

时间:2023-03-05 06:07:56

相关推荐

PHP实现采集抓取淘宝网单个商品信息 抓取商品信息

php教程|php手册

PHP,采集,抓取,淘宝网,商品,宝贝描述

php教程-php手册

PHP实现采集抓取淘宝网单个商品信息,抓取商品信息

vc界面设计源码,vscode选择行,ubuntu rdate,tomcat 会话配置,SQLite提前写入数据,html5 批量图片上传插件,ssm框架前端用是么好,爬虫怎么过https证书,unity与php,新手入行seo 收录,织梦网站上传新闻,网页内容旋转,b2b模板建站与自荐团队建站的成本对比lzw

调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。

响应式手机登录页源码,vscode建立同级文件夹,ubuntu 权限不足,tomcat下载多个软件,哪里买爬虫,php d函数,黑帽seo技术易下拉程序lzw

思路:

微信小程序 美团源码,ubuntu 查看pid,tomcat7jdk环境,python桌面爬虫,php后端获取前端数据,西湖区电商seo什么价格lzw

file_get_contents(url) 该函数根据 url 如 将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定div,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图的img中id就是J_ImgBooth!

具体实现方法:(获取500图,名称,价格,属性及商品描述)

复制代码 代码如下:

$text=file_get_contents(“/item.htm?id=2380347279”); //将url地址上页面内容保存进$text

A.获取500图:

复制代码 代码如下:

preg_match(‘/]*id=”J_ImgBooth”[^r]*rc=\”([^”]*)\”[^>]*>/’, $text, $img);

//运用正则抓取img标签中id为J_ImgBooth的img,$img[0]为该500图img标签,$img[1]为500图的图片地址;

B. 获取名称:

复制代码 代码如下:

preg_match(‘/

([^]*)/’, $text, $title);<p>//因为正文中的商品名称标签没有特殊class或id正则不好抓取,就抓<title>标签中的内容了,一般来说title中内容就是商品名称了(实际有些出入),$title[0]整个title标签 $title[1]标签中内容;<p>$title=iconv(‘GBK’,’UTF-8′,$title);<p>//如果你的网站是utf8编码,那么需要进行一下转码(淘宝是gbk编码)<p>C.获取价格:</p><p>复制代码 代码如下:</p><p>preg_match(‘/]*>([^<]*)/is’, $text, $price);<p>//同理获取id为J_StrPrice的标签内容$price[2], $price[0]是整个标签, $price[1]为strong标签名;<p>$price=floatval($price);//放入数据库估计还有转一下变量类型</p><p>D.获取属性:</p><p>这之前获取的内容都是在单标签中相对只需一个正则就可搞定,然而如果要获取如</p><p>复制代码 代码如下:</p><p>…</p><p>…</p><p>…</p><p>…<p>…<p>…<p>这样特定div中有未知n个标签,获取该特定div将会非常的困难,搜了下网上,最接近的也只是”/]*>([^]|(?R))*/”这样使用递归抓取标签对,但是他不能抓特定标签,所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性,就是它的各个标签结构基本是固定的…</p><p>…标签后面不是</p><p>就是</p><p>,所以我们可以采用变通法达到获取属性标签内容的目的。<p>复制代码 代码如下:</p><p>preg_match(‘/]*>.*/is’, $text, $text0);<p>//这个正则会抓取<div开始到整个页面最后一个标签,当然我们属性标签就在这个的前面部分。</p><p>$text1=preg_replace(“/[^<]*]*>.*/is”,””,$text0);<p>//匹配到<p>至最后然后用””代替(就是把匹配的删除了),所以如果attributes的div后面紧跟的是description那么我们已经达到目的了。<p>$attributes=preg_replace(“/[^<]*]*>.*/is”,””,$text1);<p>//如果attributes后面紧跟box J_Tbox标签,那么我们还需要使用以上这步来剔除box J_Tbox标签,当然如果attributes的div后面紧跟的是description,这一步将不会匹配到任何即什么都不会做。</p><p>E.获取描述:</p><p>通过上面方法你肯定觉得淘宝页面上任何标签都可以很简单获取了吧(我之前也是这么想的),但是使用这个方法获取描述时得到的内容将会是“描述加载中”,是的,这个描述内容不是在源码中的,它是打开页面加载进一大堆js后,不知道从淘宝的哪个角落中加载进来的。</p><p>好吧,那么我们也可以模仿它放一些js进去。不知道哪些对加载描述有用?没事,全加载进来肯定没错。不知道需要放那些特定div上去有作用?抓一个源码,删掉一些div一步步试试看,你会发现“</p><p>复制代码 代码如下:</p><p>描述加载中</p><p>这几个div是加载描述所必须的,那么下面就是写代码了:</p><p>复制代码 代码如下:</p><p>preg_match_all(‘/]*>[^<]*/is’, $text, $content);//页面js脚本<p>$content=$content[0];<p>$description=’</p><p>描述加载中 ‘;<p>foreach ($content as &$v){$description.=iconv(‘GBK’,’UTF-8′,$v);};<p>//将这个$description放进页面,描述就会自动的加载进来了,当然多个商品描述在同一个页面也会只有一个描述会被加载的。</p><p></p></p> <p class="gray">如果觉得《PHP实现采集抓取淘宝网单个商品信息 抓取商品信息》对你有帮助,请点赞、收藏,并留下你的观点哦!</p> </div> <div class="keywords"> </div> <div class="tips">本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。</div> </div> <script>news_one();</script> <dl class="plbox" id="comments"> <dt>网友评论</dt> <dd> <textarea class="plcc">文明上网理性发言</textarea> <button class="sendpl">发表评论</button> <div class="pl_tips">网友评论仅供其表达个人看法,并不表明网站立场。</div> <div class="b10"></div> <ol class="pllist"> </ol> </dd> </dl> <script> $(".plcc").focus(function(){ if($('.plcc').val()=='文明上网理性发言') $('.plcc').val(''); }); $(".sendpl").click(function(){ var plcc=$('.plcc').val(),plcs=$('<p>'+plcc+'</p>').text(); if(plcs!='' && plcs!='文明上网理性发言'){ $('.pllist').prepend('<li><img src="https://sm.tqys.net/statics/images/member/avatar.jpg" /><span class="adtime">2024-07-26 04:20</span><span class="plname">匿名873341041</span><span class="ipadd">[网友]<i>0.0.0.0</i></span><div class="pldata">'+plcs+' <font color="gray">(审核中)</font></div><div class="support"><span class="s1">顶0</span><span class="s2">踩0</span></div><div class="clear"></div></li>'); $.post("https://sm.tqys.net/comment.php",{"commentid":"content_1-67878810-1","title":"PHP%E5%AE%9E%E7%8E%B0%E9%87%87%E9%9B%86%E6%8A%93%E5%8F%96%E6%B7%98%E5%AE%9D%E7%BD%91%E5%8D%95%E4%B8%AA%E5%95%86%E5%93%81%E4%BF%A1%E6%81%AF+%E6%8A%93%E5%8F%96%E5%95%86%E5%93%81%E4%BF%A1%E6%81%AF","content":plcs,"token":"1ff385aab0d16f45d53c115c9a045ac9"}); } }); </script> <div class="list mt20"> <div class="listTit"><span></span>相关阅读</div> <dl> <dt><a href="https://sm.tqys.net/m/72/404/3lna6oaRKq.html" target="_blank"><img src="https://sm.tqys.net/uploadfile/pic/570.jpg" alt="PHP实现采集淘宝商品信息" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://sm.tqys.net/m/72/404/3lna6oaRKq.html" target="_blank">PHP实现采集淘宝商品信息</a></p> <p class="des"></p> <p class="key"> <span>2019-04-30</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://sm.tqys.net/m/69/783/5lXVXkM7Yp.html" target="_blank"><img src="https://sm.tqys.net/uploadfile/pic/241.jpg" alt="python京东商品采集_利用Python正则表达式抓取京东网商品信息" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://sm.tqys.net/m/69/783/5lXVXkM7Yp.html" target="_blank">python京东商品采集_利用Python正则表达式抓取京东网商品信息</a></p> <p class="des"></p> <p class="key"> <span>2021-08-23</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://sm.tqys.net/m/72/464/rlgrzda1KV.html" target="_blank"><img src="https://sm.tqys.net/uploadfile/pic/464.jpg" alt="闲鱼商品详情抓取系统开发/测试完毕 可自动采集闲鱼商品详情信息" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://sm.tqys.net/m/72/464/rlgrzda1KV.html" target="_blank">闲鱼商品详情抓取系统开发/测试完毕 可自动采集闲鱼商品详情信息</a></p> <p class="des"></p> <p class="key"> <span>2022-05-17</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://sm.tqys.net/m/73/508/wlwpaqkJjA.html" target="_blank"><img src="https://sm.tqys.net/uploadfile/pic/309.jpg" alt="php抓取商品信息 PHP採集抓取淘寶網單個商品信息的方法思路" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://sm.tqys.net/m/73/508/wlwpaqkJjA.html" target="_blank">php抓取商品信息 PHP採集抓取淘寶網單個商品信息的方法思路</a></p> <p class="des"></p> <p class="key"> <span>2018-08-18</span> <span></span> </p> </dd> </dl> </div> </div> <div class="sideRight"> <script>news_two();</script> <div class="rightNews mt20"> <div class="rightTit"><span></span>最近发布</div> <div class="rightNewsList"> <dl> <dt><a href="https://sm.tqys.net/html/2024/0725/NWYRv3xYOz.html" target="_blank"><img src="https://sm.tqys.net/uploadfile/pic/189.jpg" alt="专家分析治疗失眠的误区治失眠贵在调心吃什么能治失眠" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://sm.tqys.net/html/2024/0725/NWYRv3xYOz.html" target="_blank">专家分析治疗失眠的误区治失眠贵在调心吃什么能治失眠</a></p> <p class="key"> <span>2024-07-25</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://sm.tqys.net/html/2024/0725/QPjBqrElAy.html" target="_blank"><img src="https://sm.tqys.net/uploadfile/pic/33.jpg" alt="肝里有火失眠 胃里有火口气 上火的人必看!" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://sm.tqys.net/html/2024/0725/QPjBqrElAy.html" target="_blank">肝里有火失眠 胃里有火口气 上火的人必看!</a></p> <p class="key"> <span>2024-07-25</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://sm.tqys.net/html/2024/0725/J5Yxkxajza.html" target="_blank"><img src="https://sm.tqys.net/uploadfile/pic/66.jpg" alt="辨识失眠症的有效方法" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://sm.tqys.net/html/2024/0725/J5Yxkxajza.html" target="_blank">辨识失眠症的有效方法</a></p> <p class="key"> <span>2024-07-25</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://sm.tqys.net/html/2024/0725/ld8rj6wdqp.html" target="_blank"><img src="https://sm.tqys.net/uploadfile/pic/234.jpg" alt="每日一膳 | 心悸失眠烦恼多 熬一碗酸酸甜甜的粥 养血安神 您值得一试~广东省中医" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://sm.tqys.net/html/2024/0725/ld8rj6wdqp.html" target="_blank">每日一膳 | 心悸失眠烦恼多 熬一碗酸酸甜甜的粥 养血安神 您值得一试~广东省中医</a></p> <p class="key"> <span>2024-07-25</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://sm.tqys.net/html/2024/0725/zOYJBa4YyQ.html" target="_blank"><img src="https://sm.tqys.net/uploadfile/pic/501.jpg" alt="四个方法让你摆脱长期失眠" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://sm.tqys.net/html/2024/0725/zOYJBa4YyQ.html" target="_blank">四个方法让你摆脱长期失眠</a></p> <p class="key"> <span>2024-07-25</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://sm.tqys.net/html/2024/0725/PDl9DyqKN9.html" target="_blank"><img src="https://sm.tqys.net/uploadfile/pic/238.jpg" alt="王富春教授治疗失眠经验" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://sm.tqys.net/html/2024/0725/PDl9DyqKN9.html" target="_blank">王富春教授治疗失眠经验</a></p> <p class="key"> <span>2024-07-25</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://sm.tqys.net/html/2024/0725/bXK5MB6K5B.html" target="_blank"><img src="https://sm.tqys.net/uploadfile/pic/453.jpg" alt="【卓越申城 健康先行】同济医生说:陆峥教授告诉你经常失眠怎么办" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://sm.tqys.net/html/2024/0725/bXK5MB6K5B.html" target="_blank">【卓越申城 健康先行】同济医生说:陆峥教授告诉你经常失眠怎么办</a></p> <p class="key"> <span>2024-07-25</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://sm.tqys.net/html/2024/0725/V7YqzwOKn9.html" target="_blank"><img src="https://sm.tqys.net/uploadfile/pic/165.jpg" alt="广州专业治疗失眠症的医院及患者日常调理指南" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://sm.tqys.net/html/2024/0725/V7YqzwOKn9.html" target="_blank">广州专业治疗失眠症的医院及患者日常调理指南</a></p> <p class="key"> <span>2024-07-25</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://sm.tqys.net/html/2024/0725/XqjmQLoj4N.html" target="_blank"><img src="https://sm.tqys.net/uploadfile/pic/294.jpg" alt="失眠食疗方1" width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://sm.tqys.net/html/2024/0725/XqjmQLoj4N.html" target="_blank">失眠食疗方1</a></p> <p class="key"> <span>2024-07-25</span> <span></span> </p> </dd> </dl> <dl> <dt><a href="https://sm.tqys.net/html/2024/0725/P8K4axWlLg.html" target="_blank"><img src="https://sm.tqys.net/uploadfile/pic/578.jpg" alt="病人心烦失眠 狂躁妄动 伴有高热 咽干口燥 小便短赤 大便秘结 其病因是A.风邪B." width="230" height="150" /></a></dt> <dd> <p class="tit"><a href="https://sm.tqys.net/html/2024/0725/P8K4axWlLg.html" target="_blank">病人心烦失眠 狂躁妄动 伴有高热 咽干口燥 小便短赤 大便秘结 其病因是A.风邪B.</a></p> <p class="key"> <span>2024-07-25</span> <span></span> </p> </dd> </dl> </div> </div> <div class="rightClass mt20"> <div class="rightTit"><span></span>推荐专题</div> <div class="txt"> <a href="https://sm.tqys.net/k/1/687/smlzm248.html" title="失眠荔枝蜜">失眠荔枝蜜</a> <a href="https://sm.tqys.net/k/1/203/yshtysmem.html" title="有时候头晕失眠耳鸣">有时候头晕失眠耳鸣</a> <a href="https://sm.tqys.net/k/1/230/qxsmncnbjmnx.html" title="气虚失眠能吃脑白金吗女性">气虚失眠能吃脑白金吗女性</a> <a href="https://sm.tqys.net/k/1/15/65ssm.html" title="65岁失眠">65岁失眠</a> <a href="https://sm.tqys.net/k/1/621/aysm106.html" title="唉又失眠">唉又失眠</a> <a href="https://sm.tqys.net/k/1/716/lbwsm340.html" title="卢本韦失眠">卢本韦失眠</a> <a href="https://sm.tqys.net/k/1/366/csnsjcsmzcm.html" title="初三男生经常失眠正常吗">初三男生经常失眠正常吗</a> <a href="https://sm.tqys.net/k/1/136/wsmsmxjn.html" title="为什么失眠想家呢">为什么失眠想家呢</a> <a href="https://sm.tqys.net/k/1/535/smgdwx.html" title="失眠古代文献">失眠古代文献</a> <a href="https://sm.tqys.net/k/1/99/bpsshsm.html" title="包皮手术后失眠">包皮手术后失眠</a> <a href="https://sm.tqys.net/k/1/757/hzhysm.html" title="喝醉后也失眠">喝醉后也失眠</a> <a href="https://sm.tqys.net/k/1/408/smgl802.html" title="失眠概论">失眠概论</a> <a href="https://sm.tqys.net/k/1/29/xfsm415.html" title="西方失眠">西方失眠</a> <a href="https://sm.tqys.net/k/1/300/jlzyqsmdzlff.html" title="焦虑症引起失眠的治疗方法">焦虑症引起失眠的治疗方法</a> <a href="https://sm.tqys.net/k/1/400/zjbsmcwsm.html" title="在家不失眠出外失眠">在家不失眠出外失眠</a> </div> </div> </div> </div> <div class="footer"> <div class="footLinks"> <div class="footLink"> <div class="tit">猜你喜欢:</div> <div class="txt txtTwo"> <a href="https://sm.tqys.net/k/1/768/smchdf.html" title="失眠出汗掉发">失眠出汗掉发</a> <a href="https://sm.tqys.net/k/1/549/crsmyz.html" title="成人失眠严重">成人失眠严重</a> <a href="https://sm.tqys.net/k/1/583/ssfzsm.html" title="双手浮肿失眠">双手浮肿失眠</a> <a href="https://sm.tqys.net/k/1/513/yxsmm787.html" title="阳虚失眠么">阳虚失眠么</a> <a href="https://sm.tqys.net/k/1/362/smdrtnsjbhlm.html" title="失眠的人头脑神经变化了吗">失眠的人头脑神经变化了吗</a> <a href="https://sm.tqys.net/k/1/141/hgsmdy143.html" title="画古失眠的夜">画古失眠的夜</a> <a href="https://sm.tqys.net/k/1/265/szzhdzsmm.html" title="缩脂针会导致失眠吗">缩脂针会导致失眠吗</a> <a href="https://sm.tqys.net/k/1/648/smmec.html" title="失眠摸耳垂">失眠摸耳垂</a> <a href="https://sm.tqys.net/k/1/715/smlsss.html" title="失眠了说生事">失眠了说生事</a> <a href="https://sm.tqys.net/k/1/123/wshyhjcsm.html" title="为啥怀孕后经常失眠">为啥怀孕后经常失眠</a> <a href="https://sm.tqys.net/k/1/684/smdpjf717.html" title="失眠的泡酒方">失眠的泡酒方</a> <a href="https://sm.tqys.net/k/1/470/pjfssm.html" title="啤酒番薯失眠">啤酒番薯失眠</a> <a href="https://sm.tqys.net/k/1/481/zmmsm.html" title="张萌萌失眠">张萌萌失眠</a> <a href="https://sm.tqys.net/k/1/20/hfsmzlytjb.html" title="合肥失眠治疗一同济棒">合肥失眠治疗一同济棒</a> <a href="https://sm.tqys.net/k/1/735/smhlsxm.html" title="失眠喝凉水行吗">失眠喝凉水行吗</a> <a href="https://sm.tqys.net/k/1/301/xqbhmsmwkysm.html" title="心情不好没什么胃口又失眠">心情不好没什么胃口又失眠</a> <a href="https://sm.tqys.net/k/1/553/ajmmsm.html" title="艾灸命门失眠">艾灸命门失眠</a> <a href="https://sm.tqys.net/k/1/581/smbwyl.html" title="失眠百万医疗">失眠百万医疗</a> <a href="https://sm.tqys.net/k/1/260/lzfzmczsmyx.html" title="灵芝粉怎么吃治失眠有效">灵芝粉怎么吃治失眠有效</a> <a href="https://sm.tqys.net/k/1/237/sjqhsychsmm.html" title="睡觉前喝桑叶茶会失眠吗">睡觉前喝桑叶茶会失眠吗</a> <a href="https://sm.tqys.net/k/1/620/smdxf837.html" title="失眠的戏份">失眠的戏份</a> <a href="https://sm.tqys.net/k/1/608/wsytsm645.html" title="晚上孕吐失眠">晚上孕吐失眠</a> <a href="https://sm.tqys.net/k/1/275/wsmjyykkysm.html" title="为什么戒烟又口渴又失眠">为什么戒烟又口渴又失眠</a> <a href="https://sm.tqys.net/k/1/5/smjldz.html" title="失眠就拉肚子">失眠就拉肚子</a> <a href="https://sm.tqys.net/k/1/229/wsmchssmsbz.html" title="为什么吃红薯失眠睡不着">为什么吃红薯失眠睡不着</a> <a href="https://sm.tqys.net/k/1/348/hljwsmryrssm.html" title="喝了酒为什么容易入睡失眠">喝了酒为什么容易入睡失眠</a> <a href="https://sm.tqys.net/k/1/23/smgyxlxz.html" title="失眠国语迅雷下载">失眠国语迅雷下载</a> <a href="https://sm.tqys.net/k/1/329/bbbmhsmmcsmy.html" title="宝宝便秘会失眠吗吃什么药">宝宝便秘会失眠吗吃什么药</a> <a href="https://sm.tqys.net/k/1/585/jxyfsm.html" title="介休孕妇失眠">介休孕妇失眠</a> <a href="https://sm.tqys.net/k/1/292/yltnzsmmm.html" title="优立通能治失眠吗吗">优立通能治失眠吗吗</a> </div> <div class="more">展开</div> </div> </div> <div class="copyRight pc"> <p class="left">失眠网 免责声明<span></span>© 2024 All Rights Reserved.</p> <p class="right"><a href="http://beian.miit.gov.cn/" target="_blank" rel="external nofollow">湘ICP备19021678号</a><span></span><a href="/sitemap.html" target="_blank">网站地图</a><span></span><a href="/sitemap.xml" target="_blank">XML</a><span></span></p> </div> <div class="copyRight mobile"> <p>© 2024 All Rights Reserved.</p> <p><a href="/">失眠网</a> 免责声明<span></span></p> </div> </div> <div id="backTop" class="none"></div> <script type="text/javascript">op('content',67878810,1);</script> </body> </html>