喜欢倒腾小说软件的小伙伴一定会有这种感觉吧,小说软件千千万,卡在书源死一半。
很多阅读小说的软件大都是从小说站爬来的资源,而内置的站点不够,带来的都是寻而不得的不爽。
这些个小说站也挺有意思的,前两年不是笔趣阁被查了嘛,一个倒下,冒出来了更多个笔趣阁。
你叫笔趣阁,我也叫笔趣阁,他还叫笔趣阁,如果真的注册订阅过小说的小伙伴应该知道,一个订阅在这些网站上是通用的。
一个小说站做成了站群,好家伙,搁这玩去中心化的区块链呢?
不扯了,咱还是回归正题,除了这种「初级」的小说阅读器,现在还流行支持导入规则的那种,大名鼎鼎的阅读就是其中翘楚。
网上也有专门分享订阅规则的项目或网站,规则和书源是直接挂等号的,倒腾不明白规则就只能用着热心网友打包好的规则包,难免有不顺畅的地方。
之前不是和大家分享了个小说下载器,通过微信阅读实现全平台同步的,但实话实说,小说下载器内置的站点还是不多。
咋办,换个工具呗。
当时从吾爱破解上发现小说下载器的时候,意外还发现了个同样是用来把小说下载到本地的新工具,那就是小说规则捕捉器。
小说规则捕捉器
这个软件作者是吾爱上的 jumpbull,在此之前,这个作者就已经在吾爱上颁布过自己做的文本处理工具和网络书籍抓取器。
看他这个技术路线,妥妥的是为下载小说准备的,可以说小说规则捕捉器是他对之前软件的总结。
就在前几天,作者把小说规则捕捉器从 2.02 升级到了 2.03,修改了若干 Bug,我用了一段时间发现确实不错,这才急冲冲的分享给大家。
上面是小说规则捕捉器的 UI,左侧栏是下载和任务管理,右侧是定制规则,下面留了个测试规则的框框。
它真正的打开方式是这样的:
无论是从名字还是界面,应该能发现它的不一样了吧。
它把解析小说站的步骤从幕后拉到了台前,如果你愿意折腾,完全可以自己制定下载规则。
嫌麻烦的小伙伴先别跑,自己制定规则是这个软件的高阶玩法,它内置有 100 多个预设网站,我们只要找到对应的页面,复制上去一键下载就好。
除此之外它还能对想要捕捉的目标章节进行排序、删除、甚至过滤重复的操作(左侧栏任务管理处开启)。
动辄百万字的长篇小说可以随意中断、恢复下载任务,不怕中途停止漏下。
而对于导出格式还支持按章节单篇下载,或合并压缩,或 ePub 电子书格式等等(左侧栏软件设置处打开)。
作者怕我们折腾不明白这个软件,当鼠标悬浮在每个框框或选项的时候,都会有所提示。
在软件的最下栏还有步骤的提示:
贴心是真的很贴心了,至于它到底好不好用,光说不练假把式,我们试试就知道了。
单本下载
我们找一个小说站的某本小说的目录页,然后把链接复制下来。
然后粘贴到「入口网址」处,先点击一下右侧的查询小图标,看看是不是内置的预设站点。
如果有的话,会弹出一个询问弹窗,选「是」就好了。
然后右侧规则栏会出现作者预设好的规则,你看看这些规则其实很简单。
选择左侧栏的「生成任务」,自然会有捕捉任务的窗口弹出,这个任务可不能取消。
而中间那三个「标题」、「链接」、「删重」其实都是用来删重的,区别在于前两者是针对相邻章节的,最后一个「删重」能选项更多而已。
为啥要去重,因为小说规则捕捉器是根据相似链接来制定规则,难免出现一个页面有相同的链接存在的情况。
比如下面这种最新章节:
如果有去不掉的情况,选择「查看」然后手动取消就好了,状态栏都会变成不下。
全部设置好,选择「开始」按钮进行下载。
如果你取消了,完全可以在弹窗页面左上角找到恢复和重置,这个时候就是前面提到的能任意中断和开始。
等全部捕捉下载,前面设置好的指定目录下就出现对应的文件。
如果你在设置里选择了生成 ePub 格式,则会有一个同名的 ePub 文件。
但如果这也嫌麻烦的,可以直接选择「一键捕捉」,从生成任务到捕捉下载就自动完成了。
不过对于长篇小说(过千章那种),在下载过程中我碰到了捕捉失败的情况,虽然会重新捕捉,但也存在最终漏章的情况,希望作者早日把这个问题解决吧。
对了,在小说规则捕捉器里不是支持导出为 ePub 格式嘛,其实它还有个内置的 ePub 工具。
从左侧栏的「软件设置」弹出的窗口右下角找到「ePub 工具」,能对 ePub 格式的文件进行拆分。
多本下载
书荒的时候,如果你想一次下载多本小说,需要先找到这种有多本图书的页面,某个网站按类型找下去就好。
同样复制链接到左侧栏的「入口网址」,在捕捉类型处改成「多书籍捕捉」。
然后找到右侧栏的「源码」,会弹出你提供链接的源码窗口,作者提供有将压缩源码智能分段、高亮代码中的链接、删除多余空行的功能。
接下来就需要一丢丢看 HTML 代码的能力了,这也是自主制定规则的小门槛。
使用链接高亮的功能,就能找到之前那么多书的链接,关键来了,就是研究代码中相同点,这也是爬虫最基础的要求了。
比如下面这几行代码:
<a href="/book/tongzhuo1/" class="text" target="_blank" >同桌冤家</a>
<a href="/book/xiaomonvlanxiaoyu3/" class="text" target="_blank" >小魔女蓝小鱼3</a>
经过分析,可知 a 标签下的 class="text" 这个属性是最关键的规则,能把我们的目标全部关联到。
不信的话利用作者提供的查询工具看看就好了。
所以当你拿捏不准的时候,直接查一查,试试错,直到把所有目标链接扒拉出来为止。
然后回到右侧栏把标签 a,属性名 class,属性值 text 都填上去,点击测试,在下方就能看看是不是你想要的效果。
这样书籍规则就算倒腾好了,点完测试后别忘在下方栏选择「设定」,确定下一个目录规则的入口。
剩下的步骤是一样的,从新的入口处找到新的规则。
把新的规则填到目录规则处,点击测试,下方会显示全部章节。
内容规则和前面操作一样,制定好规则后就可以生成任务,捕捉下载了。
如果你会正则就更简单了,直接勾选支持正则,用正则表达式完成捕捉。
这样子手动设定规则,其实就是简单的完成了一遍爬虫,你找一门语言,研究一下爬虫的库,完全可以自己做一个简易版的小说规则捕捉器。
至于深入下去,再学学模拟登录、跳过验证,数据清洗,反爬等等,像之前说的抢茅台脚本也无非这些套路。
而小说规则捕捉器这个软件,则是帮你简便了操作,你说它难呢,确实也难,要研究代码,但你要说它强大呢,在某些场景下也确实强大。
结语
小说规则捕捉器有内置的预设站点,也有自定义的规则,两种选择都给你,怎么选择就看你的了。
我对这个工具还是有不少想法的,比如可以简洁一下一键下载的步骤,比如可以把从代码寻找规则换成更易于小白的图形化操作,让大家点点点就能完成,比如可以把 UI 做的更简洁一些。
关于这款软件,普通用户搞定单本下载就可以,如果你是高阶用户,就可以折腾一下自定义的下载规则,调教好的话,基本上可以满足你对小说下载的所有需求。
作者不是专门搞开发的,就是和我们一样是个喜欢倒腾软件的编程爱好者,你说学编程有没有用,或许作者已经给了我们答案。
长按二维码关注回复 210430 获取
电报群:wldxh QQ 群:451768616 网站:wldxh.com
文章评论