-
火车头采集器使用教程:寻找目标网站
这一步教程值得单独开一篇文章来写,每个网站的设计都不一样,他们发表的文章分类也不同。这里就介绍最常见的一种结构。 我们首先需要确定你要采集什么内容,然后根据不同内容去找目标网站。 比如我要采集IT资讯、云服务器类的内容。 以景安的文章为例,我先找到了他的文章都放在了哪个网站。 在百度这样搜索site:zzidc.com windows2008 site:zzidc.com代表仅搜索这个域名下的内容…... 技术大师- 0
- 0
- 5
-
火车头采集器使用教程:批量添加目标网站列表链接
我们先打开火车头采集器 界面图 左侧是我创建好的一个任务WP2 你直接新建个任务就行了 新建任务直接出来这个界面 我们点击起始网址后面的“向导添加” 然后选择批量网址 在上一篇文章里我们发现了他的列表页地址是有规律的,从第2页到33页,都是递增的数字变化。所以我们可以一次生成从第2页到第33页的地址 把地址里面会变化的那个数字替换成“[地址参数]” 然后下面数字变化从2开始,依次递增32项。 如下…... 技术大师- 0
- 0
- 4
-
火车头采集器使用教程:分析目标网站文章链接位置及规则
上一篇文章我们批量添加了他列表页的地址。 下面我们要从列表页分析出来他文章的地址。 首先看下,在列表页里面他的文章链接都在我红线画出的部分。 然后我们就可以从画出这部分里面的代码找到地址,我们看一下 是在server-r2这个div里面 注:我用的是浏览器带的调试功能,直接按键盘F12就出来了。 我们查看网页源代码,浏览器按CTRL+U即可 CTRL+F搜索server-r2,可以看到只有一个结果…... 技术大师- 0
- 0
- 5
-
火车头采集器使用教程:分析目标网站要采集内容的位置及规则
我们首先打开一篇文章,看看他的基本结构:标题和内容起始,以及是否有重复。 从下图可以看到有标题重复,以及我们不需要的内容(他的广告) 我们查看网页的源代码,CTRL+U 先搜索标题,看看标题都在哪些位置 可以看到有三个位置都是标题,看到这三个位置,分析下前后的内容。最终我选择了第三个作为采集标题的位置。 因为前后和其他文章更不容易出现不同的情况。避免出现个别文章采集标题为空的情况。 我们打开火车头…... 技术大师- 0
- 0
- 5
-
火车头采集器使用教程:采集内容发布规则设置
前面我们讲了怎么寻找网站,以及采集文章链接和内容,下面我们就说一下内容发布相关的设置。 因为我教程里都是设置好的发布规则,所以这里我就简单介绍下各个项目。 如下图 第一步,我们点击到内容发布规则这里 第二步,点击web发布规则列表后面的加号 第三步,出现了模块管理(教程总目录有写,我们的模块文件放到火车头程序下面的\Module\目录里),选择wordpress.post这个模块 第四步,网页编码…... 技术大师- 0
- 0
- 5
-
火车头采集器使用教程:测试采集和发布是否正常
前面我们已经设置好了采集和发布设置 下面我们测试一下是否可以正常采集发布内容。 这里采集列表链接我就使用1页作为演示,防止一次采集过多数据给我网站发布太多内容。 演示里我会把起始网址里面的第一项删掉,只保留第二项那个单页地址。 另外在其他设置-发布相关-边采集边发布,这里我们开启它。 然后保存并退出 然后在火车头首页上,我们找到我们的任务,把:采网址、采内容、发布。这三项都勾上。 在任务上鼠标右键…... 技术大师- 0
- 0
- 6
-
火车头采集器图片采集上传设置
火车头采集器图片采集上传设置 前面我们写了基础的标题和文章采集,下面介绍下图片的采集。 图片采集不是必须的,但是图片可以丰富网站的内容,具体我也不清楚对网站的SEO有什么影响。我测试采集图片和不采集图片收录没区别,我见到的一些采集站,大部分也是不采集图片的! 如果采集数据量比较大的话可以选择不采集图片。 正文开始 首先是火车头采集器上的设置。 我们以这个文章为例:https://server.zz…... 技术大师- 0
- 0
- 4
-
火车头采集器采集发布文章作者、时间、标签等内容
为什么采集这些东西,这里就不废话了。 下面一个一个的说怎么设置 1.作者 作者是在接口文件里设置的,这个接口文件不支持随机作者等。只能设置一个固定的。 在接口文件的30行左右。里面有个值我们根据自己具体情况填。 请注意,那里面的不是作者名字,也不是作者用户名。是作者账号的ID数字。 比如我们创建wordpress站点时默认创建的管理员账户ID就是1,后面的用户依次递增。2、3、4、5等等。这个应该…... 技术大师- 0
- 0
- 5
-
火车头采集器定时采集更新网站内容
前面的教程我们基本能完成网站内容的采集工作了。但是我们想要网站长期运行的话,肯定不能单靠一次采集来完成。 火车头自带的有计划任务功能,我们可以使用这个功能来实现定时运行采集任务。 另外我们采集的地址也需要做一些变更,提高采集效率。 1.采集地址设置 前面教程李我们的目的是把对方整站的内容给采集过来,所以采集列表里网址比较多,后面我们持续采集新内容的话就不能扫描整个网站这样来了。 我们只监控第一页即…... 技术大师- 0
- 0
- 4
-
火车头采集今日头条文章教程
今日头条的文章还是挺难采集的,主要原因有下面2点 1.文章的真正列表不好找 2.内容采集需要转码和字符替换操作 3.今日头条对采集有限制 今日头条文章列表地址 https://www.toutiao.com/ch/news_finance 我们打开今日头条这个财经类别文章的地址,然后浏览器F12,点击network、XHR 然后刷新网页 可以看到XHR里有很多内容,经过一个一个…... 技术大师- 0
- 0
- 6
-
火车头9.8版本,获取列表正常 但发布文章提示 分类id为空
这个问题困扰了我两天,百度和谷歌没有找到任何有用的信息。搜索到的结果基本都是说强制https导致获取列表失败的问题。 本文提到的跟https没关系。 解决方式是换了一套发布模块和接口文件! 文件下载: https://pan.baidu.com/s/1l-gxx8jYvRFXwaWBnEVBXg?pwd=dzvp 问题截图... 技术大师- 0
- 0
- 4
-
火车头单篇文章采集多个tag标签并发布到WordPress
我们网站使用wordpress等程序的话在文章中加上合适的tag标签还是有挺多好处的。之前教程没有写过这个文章,前几天遇到了这个问题咨询了其他大佬解决了。下面给大家分享一下操作教程。 操作教程 本次教程就仅仅贴出有关tag标签的原文代码段了。代码如下 这里是正文</p></div> <div class="tags" data-v-99fc881e…... 技术大师- 0
- 0
- 4
-
解决火车头采集器https报Object reference not set to an instance of an object错误
本人是在采集列表页出现的这个错误,不过问题是和内容页报错一样的。 问题原因 是挂采集的的操作系统.net版本太低的原因。 解决方式 安装高版本.net即可。 windows 2008安装.net 4.5及以上版本。Microsoft .NET Framework 4.5 windows 7安装.net 4.6版本即可。Microsoft .NET Framework 4.6 安装前需要关闭火车头采…... 技术大师- 0
- 0
- 5
-
Justnews主题,火车头发表文章到快讯文章教程
研究了下发现这个页面还是挺实用的。一些短内容可以一目了然的查看。而且页面会自动更新。 justnews主题带有快讯文章功能。基本符合功能要求。 网站的快讯信息,我们自然不可能手动去更新的。只有采集了。研究了下发现只需要改一下采集接口即可。 操作步骤 在采集接口搜索“post_type”,可以看到默认的是“post”文章类型。页面的会是page。 justnews主题给快讯创建了一个“kuaixun…... 技术大师- 0
- 0
- 5
-
火车头采集器下载中文图片地址报错:发生错误终止..
报错信息 该问题时网友发现的,采集的内容中图片URL地址包含中文字符。 然后在采集内容时火车头自动下载图片就提示:发生错误终止,远程服务器返回错误:(404)未找到。 研究了下发现是设置问题。应该是默认火车头没有将URL地址转码导致。 解决方式 在火车头任务编辑–其他设置-Http请求设置–中将网页编码改为UTF-8即可。... 技术大师- 0
- 0
- 4
-
火车头采集器采集文章重复解决办法
给一个垃圾站开启采集工作。发现了一些问题是采集结果始终是重复2次。采集器默认设置里的“排除重复设置”不起作用。 经过研究发现可以在内容采集规则里排除重复达到效果。 建议使用标题来进行排除重复。 实际效果如下 会自动删除重复的内容。在数据库中查看已经没有重复的了。... 技术大师- 0
- 0
- 4
-
火车头采集器高速采集:保存为本地文件然后导入数据库
之前介绍的都是通过web发布到网站的方式。这种方式速度相对比较慢,在采集大量数据时很耽误时间,而且对服务器资源消耗巨大。 火车头采集器默认还有其他2个发布数据的方式: 一种是直接导入到数据库,这个我还没有研究明白。 另一种就是保存为本地文件,然后手动导入到数据库。 经过本人实际测试保存为本地文件然后导入数据库的方式也是非常快。可以作为大量数据的发布方式。 操作步骤 1.首先关闭以前的web发布方式…... 技术大师- 0
- 0
- 3
-
win7/win8设置防火墙端口开放关闭以及检测开放端口
打开“控制面板”,点击“系统和安全”,“Windows防火墙”,左侧“高级设置” 右键入站规则选择新建 规则类型选择 端口,下一步 TCP,特定本地端口,445 组织连接 域,专用,公用。全部选择上。 保存名称即可... 技术大师- 0
- 0
- 6
-
宝塔Linux面板安装前磁盘挂载
有时候我们购买的服务器会有个系统盘和数据盘,linux服务器数据盘需要我们自己挂载才行。 linux服务器的磁盘系统和Windows完全不一样,不是分什么C盘、D盘这样。 磁盘挂载一定要在安装宝塔面板之前操作,否则的话还需要进行数据的移动操作,比较容易出问题,建议是服务器安装好系统后,直接进行磁盘挂载操作。 服务器我们首先通过SSH远程登录上去。购买服务器后如何远程连接登陆? 然后我们直接输入宝塔…... 技术大师- 0
- 0
- 6
-
宝塔Linux面板性能设置
性能设置 内存清理 添加计划任务,定时清理内存,可以设置为每天一次,时间建议选择在网站访客最少的时间段,个人建议凌晨4点30分左右。(清理内存时,正在访问的访客可能会出现404) 添加Swap交换分区(类似于Windows的虚拟内存) Swap推荐值:物理内存 Swap512M 1024M1GB 1500M2GB 2048…... 技术大师- 0
- 0
- 6
-
宝塔Linux面板安全设置
在进行端口修改操作前,如果你的服务器有安全组一定记得在安全组放行对应端口。 Centos系统宝塔面板开启某端口教程 下图是本站开启的端口 宝塔linux面板默认端口是8888(注意:新版宝塔端口随机) 网站使用80端口 https/SSL使用443端口 linux服务器SSH默认使用22端口 FTP服务默认使用21端口 以上这几个端口是我们经常使用的。 我们首先把除了这几个端口之外的全部删掉。 防…... 技术大师- 0
- 0
- 8
-
宝塔Linux面板网站建设教程
VPS的选择 选择VPS时我们首先需要了解一些知识,国内的服务器都要求备案,大陆外的都不需要。这里本教程以做网站为主,所以建议选择搬瓦工CN2 系列的VPS。并且做站的同时,还可以做个代理看一些油管类的网站。 VPS购买可以看:搬瓦工VPS购买方案与常见问题 关于域名 域名新手一般建议选择在阿里云腾讯云购买。好管理并且出问题也更容易处理。请注意,在国内购买的域名,都需要实名认证后才可以解析使用。 …... 技术大师- 0
- 0
- 11
-
宝塔linux面板搭建aria2离线下载服务器教程
特别注意:美国或者其他地区的服务器会有版权限制,如果你用美国服务器下载电影时注意版权问题,否则可能会收到版权投诉。 服务器环境 centos7系统 已安装宝塔linux面板 在此基础上搭建Aria2下载服务 先放两张搭建好的下载截图 详细教程 先是连入服务器SSH,怎么连我就不说了,SSH不知道怎么连的下面最好也不要看了 进入SSH输入以下命令 yum install epel-release 程…... 技术大师- 0
- 0
- 7
-
aria2离线百度云Chrome谷歌浏览器下载插件–BaiduExporter
通过此插件可以在百度云界面直接将文件推送到aria2离线下载任务列表。 只适用于谷歌浏览器 教程 插件源码GitHub地址:https://github.com/acgotaku/BaiduExporter 我们下载好BaiduExporter后将压缩包内chrome整个文件夹解压出来 然后打开chrome浏览器 选中右上角选项-工具-扩展程序 勾上 “开发者模式” 再点击 “打包扩展程序” 选择…... 技术大师- 0
- 0
- 6
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!