网站首页 > 知识剖析 正文
参考自知乎专题微信公众号内容的批量采集与应用,作者:飯口組組長
原作者(飯口組組長)有一句话:我的方法来源于许多同行的分享精神,所以我也会延续这个精神,将我的成果分享出来。
这系列的文章也是为了延续这份分享精神!
该系列文章是根据知乎专题的教程一步一步实现过程,以及实现过程中踩过的一些坑。
关于原理介绍这里就不重复了,大家可以参考知乎专题。
前期的代码可以在专题中找到。
PHP代码修改
在完善php代码之前,我们要先准备一份链接数据的代码。这里也没准备用啥框架实现,就直接写了个简单的获取pdo链接的函数:
代码这里就不做详细解释了,感兴趣的可以去了解下pdo。
接下来完善getMsgJson.php,这个文件。该php就能实现爬取历史页面的文章信息和原文地址了。但爬取微信文章内容还需要其他代码。
嗯嗯,直接给改好的代码吧,有不懂的可以私聊问作者吧,有空尽量回。
<? include 'getConnection.php'; $str = $_POST['str']; $url = $_POST['url'];//先获取到两个POST变量 //先针对url参数进行操作 parse_str(parse_url(htmlspecialchars_decode(urldecode($url)),PHP_URL_QUERY ),$query);//解析url地址 $biz = $query['__biz'];//得到公众号的biz //接下来进行以下操作 //从数据库中查询biz是否已经存在,如果不存在则插入,这代表着我们新添加了一个采集目标公众号。 $pdo = getConnection(); $sql = 'SELECT * FROM weixin WHERE biz = ?'; $stmt = $pdo->prepare($sql); $stmt->bindParam(1, $biz); $stmt->execute(); $res = $stmt->fetch(PDO::FETCH_ASSOC); if (!$res) { $sql = 'INSERT INTO weixin (biz, collect) VALUES (?, ?)'; $stmt = $pdo->prepare($sql); $stmt->execute(array($biz, strtotime("now"))); } //再解析str变量 $json = urldecode($str);//首先进行json_decode file_put_contents('./his.txt', $json); // $json = htmlspecialchars_decode($json);//首先进行json_decode $json = json_decode($json, true);//首先进行json_decode if(!$json){ $json = json_decode(htmlspecialchars_decode($str),true);//如果不成功,就增加一步htmlspecialchars_decode } foreach($json['list'] as $k=>$v){ $type = $v['comm_msg_info']['type']; if($type==49){//type=49代表是图文消息 $content_url = str_replace("\\", "", htmlspecialchars_decode($v['app_msg_ext_info']['content_url']));//获得图文消息的链接地址 $is_multi = $v['app_msg_ext_info']['is_multi'];//是否是多图文消息 $datetime = $v['comm_msg_info']['datetime'];//图文消息发送时间 //在这里将图文消息链接地址插入到采集队列库中(队列库将在后文介绍,主要目的是建立一个批量采集队列,另一个程序将根据队列安排下一个采集的公众号或者文章内容) $sql = 'SELECT id FROM tmplist WHERE content_url = ?'; $stmt = $pdo->prepare($sql); $stmt->bindParam(1, $content_url); $stmt->execute(); $res = $stmt->fetch(PDO::FETCH_ASSOC); if (!$res) { $sql = 'INSERT INTO tmplist (content_url) VALUES (?)'; $stmt = $pdo->prepare($sql); $stmt->bindParam(1, $content_url); $res = $stmt->execute(); $post = array(); $post['field_id'] = $v['app_msg_ext_info']['fileid'];//一个微信给的id $post['title'] = $v['app_msg_ext_info']['title'];//文章标题 $post['title_encode'] = urlencode(str_replace(" ", "", $post['title']));//建议将标题进行编码,这样就可以存储emoji特殊符号了 $post['digest'] = $v['app_msg_ext_info']['digest'];//文章摘要 $post['source_url'] = str_replace("\\", "", htmlspecialchars_decode($v['app_msg_ext_info']['source_url']));//阅读原文的链接 $post['cover'] = str_replace("\\", "", htmlspecialchars_decode($v['app_msg_ext_info']['cover']));//封面图片 $post['is_top'] = 1;//标记一下是头条内容 $post['is_multi'] = $is_multi; $post['biz'] = $biz; $post['content_url'] = $content_url; $post['zdatetime'] = $datetime;//文章摘要 //现在存入数据库 $sql = 'INSERT INTO post (biz, field_id, title, title_encode, digest, content_url, source_url, cover, is_top, is_multi, zdatetime) VALUES (:biz, :field_id, :title, :title_encode, :digest, :content_url, :source_url, :cover, :is_top, :is_multi, :zdatetime)'; $stmt = $pdo->prepare($sql); $res = $stmt->execute($post); } if($is_multi==1){//如果是多图文消息 foreach($v['app_msg_ext_info']['multi_app_msg_item_list'] as $kk=>$vv){//循环后面的图文消息 $content_url = str_replace("\\","",htmlspecialchars_decode($vv['content_url']));//图文消息链接地址 //这里再次根据$content_url判断一下数据库中是否重复以免出错 $sql = 'SELECT id FROM tmplist WHERE content_url = ?'; $stmt = $pdo->prepare($sql); $stmt->bindParam(1, $content_url); $stmt->execute(); $res = $stmt->fetch(PDO::FETCH_ASSOC); if (!$res) { $sql = 'INSERT INTO tmplist (content_url) VALUES (?)'; $stmt = $pdo->prepare($sql); $stmt->bindParam(1, $content_url); $res = $stmt->execute(); //在这里将图文消息链接地址插入到采集队列库中(队列库将在后文介绍,主要目的是建立一个批量采集队列,另一个程序将根据队列安排下一个采集的公众号或者文章内容) $post = array(); $post['title'] = $vv['title'];//文章标题 $post['field_id'] = $vv['fileid'];//一个微信给的id $post['title_encode'] = urlencode(str_replace(" ","",$post['title']));//建议将标题进行编码,这样就可以存储emoji特殊符号了 $post['digest'] = htmlspecialchars($vv['digest']);//文章摘要 $post['source_url'] = str_replace("\\","",htmlspecialchars_decode($vv['source_url']));//阅读原文的链接 $post['cover'] = str_replace("\\","",htmlspecialchars_decode($vv['cover']));//封面图片 //$cover = getCover(str_replace("\\","",htmlspecialchars_decode($vv['cover']))); $post['zdatetime'] = $datetime; $post['is_multi'] = $is_multi; $post['is_top'] = 0; $post['biz'] = $biz; $post['content_url'] = $content_url; //现在存入数据库 $sql = 'INSERT INTO post (biz, field_id, title, title_encode, digest, content_url, source_url, cover, is_multi, is_top, zdatetime) VALUES (:biz, :field_id, :title, :title_encode, :digest, :content_url, :source_url, :cover, :is_multi, :is_top, :zdatetime)'; $stmt = $pdo->prepare($sql); $res = $stmt->execute($post); } } } } }
想要看效果的可以把getWxHis.php、getWxPost.php中的echo语句注释掉。
未完待续……To be Continued……
希望这篇文章能给你带来知识和乐趣,喜欢博主的文章可以加博主好友哦
猜你喜欢
- 2024-11-11 详解如何防止SQL注入:应对方案与优缺点分析
- 2024-11-11 XSS注入我也不怕不怕啦--PHP从框架层面屏蔽XSS的思考和实践
- 2024-11-11 挖0day漏洞原来如此简单,我的黑客朋友手把手教你
- 2024-11-11 php用soap调用接口实例,返回值没有见到xml
- 2024-11-11 备战金九银十,2020最新大厂PHP面试题(附答案)
- 2024-11-11 dede后台发布文章的时候显示标题不能为空?
- 2024-11-11 PHP漏洞之-Session劫持 php session机制
- 2024-11-11 php特殊字符处理 php 特殊字符自动转义
- 2024-11-11 Java面试260题(2020年版,3-5年面试题重点突破)(二)
- 2024-11-11 2020最新大厂PHP面试题(附答案) php面试官应该问些什么
- 最近发表
- 标签列表
-
- xml (46)
- css animation (57)
- array_slice (60)
- htmlspecialchars (54)
- position: absolute (54)
- datediff函数 (47)
- array_pop (49)
- jsmap (52)
- toggleclass (43)
- console.time (63)
- .sql (41)
- ahref (40)
- js json.parse (59)
- html复选框 (60)
- css 透明 (44)
- css 颜色 (47)
- php replace (41)
- css nth-child (48)
- min-height (40)
- xml schema (44)
- css 最后一个元素 (46)
- location.origin (44)
- table border (49)
- html tr (40)
- video controls (49)