声明:
采集设置乃是个人自己摸索整理经验,并非官方教程。经个人摸索、查阅网上资料所得,享有本文著作权。
未经本人允许禁止转载、抄录本文部分或全部内容,违者必究!
启用后台采集主程序
上一篇文章讲解了如何设置搭建网站并启用后台采集主程序,教你如何导入规则之后,现在再来一下列表采集设置分页和后台设置分页采集。
在此之前你需要确认PTcms采集使用的主程序是否已经在正常运行,如何查看呢?
访问:后台首页/ 采集管理/ 任务管理/ 采集任务监控
如果你没有开启的话,如下截图:
主要看标出②处显示状态为获取主进程运行状态失败,表示你还没有开启哦!注意了需要先点击①处开启哦,之后再登陆网站服务器输入上一篇文章中提到的命令:(网站域名需要改为你自己创建网站时候的域名)
/www/server/php/73/bin/php /www/wwwroot/网站域名/kx cron:master >>/dev/null 2>&1
执行完这条命令是不会有任何提示反馈的!如图:
其中/www/server/php/73/bin/php表示你使用的php版本,这里我使用的是宝塔搭建的php 7.3环境,所以73表示版本,如果使用宝塔其他版本改一下这个蓝色部分就可以了;/www/wwwroot/网站域名/ 表示的是你PTcms网站存放的根目录,网站域名需要改为你自己创建网站时候的域名。在/www/wwwroot/网站域名/ 这个目录下有个kx的文件那就找对了。
那如何查看主程序已经启动了呢?
在服务器上输入如下命令:(网站域名需要改为你自己创建网站时候的域名)
/www/server/php/73/bin/php /www/wwwroot/网站域名/kx cron:check
运行如果出现如下状态就正常了!
提示:启动主程序运行这条命令最好添加到任务计划中,主要是为了防止你在做一些web服务重启、php对应版本重启,服务器意外重启都会导致主程序停止运行!之前安装设置文章中提到过在宝塔中设置计划任务这里就不再赘述!
启动主程序运行正常之后,就返回到原来 后台首页/ 采集管理/ 任务管理/ 采集任务监控
点击①处的刷新按钮后,②、③处状态就显示正常了。
后台采集设置说明
下面就可以切入正题开始讲一下导入采集规则后如何使用的问题了,首先你要了解一下规则管理页面功能(位置:后台首页/ 采集管理/ 规则管理/ 规则管理),如下图:
功能简要说明:
①处:指的是采集规则的添加、删除、导入、导出。这个应该很好理解,这里不再赘述。
②处:编辑指的是编辑当前该条采集规则的采集规则,如你需要编辑规则,请先导出对应该条规则进行备份,防止修改之后无法正常采集。
③处:采集,默认会进到 后台首页/采集管理/ 采集管理/ 列表采集的页面,主要分为前台页面采集和后台离线采集(后台采集可以关闭浏览器运行,在手动采集日志中查看进度;前台页面采集必须保证浏览器是打开状态)。列表采集主要采集的的是小说网站中的小说名称、作者、封面、分类、等小说的基本信息,如果这个小说是第一次采集,除了会采集小说基本信息,还会新增小说ID号、小说章节目录信息和部分章节内容。(有关小说采集顺序,稍后会有说明!)
④处:测试,应该是你导入我所提供的采集规则后首先需要做的事情,由于小说网站链接、页面参数变化等因素会存在部分采集规则失效问题,所以导入则后应先点击测试,查看是否能够正常采集。详细操作如下:
点击测试按钮后,选择默认运行测试,点击确认执行即可!
执行后截图如下:
执行采集成功,会有绿色字体提示采集内容成功(如上图所示),说明采集规则是正常可用的。反之,如果出现红色字体提示,就表明采集规则未能正常采集到小说数据。
⑤处:任务,指的就是计划间隔多长时间进行采集,这个采集是循环进行的,点击任务后进入采集任务设置界面,如下图:
A处:设置采集间隔时间,默认600(即10分钟)秒采集一次。一般在采集规则中含有“最近更新”、“首页更新”的采集规则时,由于网站更新频率不同,需要你查看对应小说网站对应首页中的最近更新部分或者是网站最近更新栏目频率来决定时间间隔,所以设置也可以不同。且会按你设置间隔时间进行循环采集。
B处:根据网上搜索的结果,本人只搜索到用来设置采集开始页码和结束页码用的,其他还可以用来干啥但是不清楚。如要添加页码写法:"start/开始页码/end/结束页码";举例一下我需要采集第1页到第100页的数据,就可以写成"start/1/end/100" (填写时不用加引号,只需要填写引号内的内容即可!)
C处:采集形式,一般默认使用加入后台计划任务即可。
添加后的任务请到后台主页/ 采集管理/ 任务管理/ 任务管理中进行采集任务的管理,默认你添加完成后,就已经开始采集了,具体你可以到 后台首页/ 采集管理/ 任务管理/ 采集任务监控 进行查看。
⑥处:用来删除规则用的,一般时采集小说网站无法正常访问,或者是小说网站有WAF拦截你的采集请求,无法采集数据。删除失效采集规则使用。
小说采集流程:
⒈访问到需要采集的小说网站
⒉查找需要采集的版块(如最近更新、全本小说、免费小说或者是某一个栏目等)
⒊找到后开始采集列表页(列表页主要采集对应板块中小说的名称、小说ID号、小说最新章节)
⒋有了小说ID号之后,就可以接着采集信息页(信息页采集小说名称、作者、小说类型、封面、小说简介等内容)
⒌访问小说的目录页,也就是小说的章节列表页。(目录页主要采集对应小说所有章节ID号,章节名称,章节数量等),如果显示章节列表页分页了还要添加对应的下一页的规则,以获取到所有规则!
⒍最后就是获取小说章节内容(获取内容时,有些小说网站会添加自己网站网址、链接、推广等内容,需要我们进行一个内容过滤),有些网站为了防止采集,会让章节内容进行分页,这种情况还要添加对应的下一页的规则,以获取到所有小说内容!
⒎有些小说章节内容需要付费才可以观看,在采集章节内容时还需要排除这部分内容。
吐槽一下:
以上就是一部小说采集流程,所以,写规则时间很麻烦的事,一般容易简单一些小说网站采集规则也需要20分钟才能写出一条,对于存在分页显示,需要采集内容特征不明显,不容易筛选的小说网站,最长我弄过将近一个小时左右,除了这个还要维护采集规则,如果哪个小说网站更换网址、或者更换网站板面,也有可能导致采集规则失效,对于那些吐槽采集规则收费贵的人,我是无语了。我只能送给那些整天想着如何免费获取他人劳动成果的人一句话:"未经他人苦,莫劝他人善;你若经他苦,未必有他善。"
站点管理:站点管理说白了是用来创建一个采集站点用的,比如:我知道一个小说网站:https://www.69zww.com,我需要采集这个网站小说数据,首先你就得新建一个这样的小说站点,便于你后期管理者这小说网站的采集。
具体说明这里按序号逐个解释:
①站点名称,根据你自己习惯填写就好,我这里是按网站名称+网站域名进行组合填写,方便以后站点多了号搜索
②站点关键字,根据你自己习惯填写就好,我这里是用网站域名作为关键字填写
③站点地址,这地大家都知道,我就不多说了,填的就是你需要采集小说的网址
④站点类型,看你自己设定,默认一般选择普通就行了,如果采集小说站点原创作品较多就写原创,网站阅读体验好和小说种类齐全,没有会员或者VIP限制就可以选择优质站点。
⑤站点权重,权重越高小说默认阅读就采用这个小说站点优先显示,如果权重较低就会作为备选或者转码站点使用
⑥添加新书,简单理解就是采集这个小说站点时,如果采集到本网站没有的就添加到我的网站中
⑦替换源站,说直白点,就是采集到同一部小说,如果选择是,这个小说采集来源站点就替换成你当前这个小说站。(还有一种情况,如果其他采集小说站比你这个小说站更新内容快或者采集速度快用时短,也会触发更换小说采集来源站)
规则管理之前说过,这里就不在赘述
采集管理的其他设置:
下面就简单说一说: 后台首页/采集管理/ 采集管理里面对应页面是如何设置的!
列表采集:采集小说基本信息,这里是方便采集者自定义采集数据范围,如下所示:
具体说明如下:
①选择采集方式,跟提示信息一样:前台页面采集必须保证浏览器是打开状态;后台采集可以关闭浏览器运行,在手动采集日志中查看进度;
②选用规则,这里图片中写的P1~181,指的是该网站中最近更新栏目一共有181页数据。(这个是我提供小说规则才特有的,因为我是一个一个规则检验写出来的。)
③这里选择你需要采集页数,你可以填写开始页码为1,结束页码为181,这样就不会有遗漏掉的小说数据了,即使后面新增数据,新的数据都是在前面几页,采集数据不会有遗漏。
④翻页间隔,这个指的是每采集完一页数据后,多少秒后采集下一页数据,这里根据你实际请款来,我的机器比较差,采集完后,需要等待3~5s左右才会提示,我指的提示是出现“脚本已经完成,请关闭窗口”这个提示。一般采集完这一页最后一条数据后,会等待弹出⑤和⑥所用的间隔时间用来作为翻页时间,机器性能较好的,基本没这间隔时间的感觉
书号采集,顾名思义就是根据书号ID进行采集。
简单来说就是你发现,你网站的这本小说采集有问题,没采集到数据,或者章节不全,或者有一些小说没采集完整,就可以用这个功能进行完善,重新采集。采集设置跟之前列表采集设置差不多,这里就不多说了。
信息更新:指的是小说基本信息更新,如封面,小说分类,简介,更新状态等等。
内容更新和内容重采都是更新,采集小说章节内容的,这个就不多说了,看看设置旁边文字描述都可以完成的。
章节重排:指的是一些小说章节顺序错乱,无法按照顺序阅读小说,就需要重新重排小说章节顺序,就是这个意思。
,最后,可能有些朋友对这个小说ID、章节ID不太清楚的,怎么查看的,这里举几个例子:
斗罗大陆V重生唐三 小说ID就是52718
再如:
元尊 小说ID就是383
一般小说网站,会有三个常用ID:分别是分类ID、小说ID、章节ID,如下图所示:
①就是分类ID,②就是小说ID,③就是章节ID
目前所有关于PTCMS采集设置内容讲解完毕,如有错误、遗漏还请您在评论区或者发送电子邮件761479629#qq.com进行指正。(为防止黑客爬取,请将#更换为@再发送邮件)