• 反俄毒招!世界杯遇尴尬:假球票1万余张,涉案金额1亿美金! 2019-06-14
  • 萨拉赫,你再不上 埃及队就要回家啦 2019-06-14
  • 中外学者齐聚拉萨 首届中国西藏拉萨阿里象雄文化国际学术研讨会召开 2019-06-09
  • 一语惊坛(5月22日):精忠报国是每一个热血青年的夙愿! 2019-06-06
  • 世界是动态发展与平衡的,不会静止不变,指导社会的理论也是不断发展完善的,由相对真理向绝对真理发展接近,这话不是我臆造的,来自学的大学课本根据马克思著作编写... 2019-06-06
  • 重庆 民俗文化进校园(我们的节日·端午) 2019-06-04
  • 太阳是宇宙加油站?不明物体多次靠近“加油”,看清后屏住呼吸 2019-06-04
  • 代理加盟 2019全新代理计划 赚钱+省钱双管齐下,独立平台,丰厚利润!

    您现在的位置: 波西亚时光ns > 织梦大学 > 织梦采集 >

    波西亚时光中文版:DeDeCMS织梦后台自带采集器采集教程案例分享

    来源:未知 发布时间:2019-04-13热度: ℃我要评论
    前面几篇文档,我们介绍了 织梦自带采集器使用教程 ,但是不是每个用户都可以用都好,总之采集这个东西要实站积累经验才行,因为目标站代码不同,只有碰到不同的问题积累起来才能上手操作。 第一步、我们打开织梦后台点击采集采集节点管理增加新节点 第二步、新增节点-...

    波西亚时光ns www.1y2c.com

    前面几篇文档,我们介绍了织梦自带采集器使用教程,但是不是每个用户都可以用都好,总之采集这个东西要实站积累经验才行,因为目标站代码不同,只有碰到不同的问题积累起来才能上手操作。

    第一步、我们打开织梦后台点击采集——采集节点管理——增加新节点

     

    第二步、新增节点-配置网址索引

    填写要采集的网站的列表相关规则,

    查看采集站点的编码和网站源码

    我们右键单击,点击查看源码,在源码的开头位置,找到一个写有charset=某一编码的meta标签,比如charset="gb2312",这个就是所说的网站编码了

     

     

    选择采集站点的编码

     

     

    第三步、新增节点-配置文章网址匹配规则

    我们查看采集站点的列表页源码,找到文章列表开始html和结束html标签,分别把它们复制到增加采集节点->文章网址匹配规则的"区域开始的HTML"和“区域结束的HTML”输入框中。你不一定选择右键查看源码来找到文章列表开始标签,你可以在文章开始的地方右键单击,审查元素(chrome浏览器,firefox是查看元素),这样就更方便的找到文章列表开始和结束的标签了。

    设置之后我们点击"保存信息并进入下一步设置"

     

     

    第四步:网址获取规则测试

    如果在测试结果发现有无关的网址信息,说明的第五步中的网址过滤规则有误或者没有填写过滤规则。如果发现采集有误,你可以返回上一次修改,没有就点击“保存信息并进入下一步设置”。

     

    第五步:内容字段获取规则

    我们查看采集站点的文章源码,找到相关选项的开始和结束html标签,填写入指定位置,开始和结束标签以"[内容]"分格。

    设置完毕,我们点击"保存配置并预览"

     

    第六步:过滤规则

    在第七步中的匹配规则后面,都 有一个过滤规则,这个过滤规则是用来过滤无需采集的内容。

    比如,网易每篇文章都有一个放置广告的iframe标签,我们要采集网易的文章,不可能采集回来之后,一篇一篇得去删除这个广告。但是如何去除呢?去除方法就是那个过滤规则,我们点击常用规则,就会弹出一个小窗口,列出了常用的过滤规则,我们只需点击要们要过滤的规则即可,要过滤网易文章中的iframe标签,我们就点击iframe即可。

    测试内容字段设置

    因为网易有的文章开头是<div id="endText">,有的文章开头是<div id="endText" class="end-text">,所以会出现采集出错的情况。

    如果你现在就要采集,你可以点击保存并采集。这里我选择仅保存

    采集内容(一)

    回到采集节点管理的界面,也就是第一步中的界面,我们选择节点,点击采集

     

    采集内容(二)

     

     

    查看已下载

    可以在采集界面(即第十步中的界面)的右上角,点击“查看已下载”。也可以在“采集节点管理”的界面里点击“查看已下载”。这里以第二个方法为例。

    导出内容

    选择要导入到的栏目,数据量,是否生成html文件 ,随机推荐数量

    最终结果

     

    本文地址://www.1y2c.com/dedecms_cj/1636.html

      责任编辑:波西亚时光ns

      发表评论

      评论列表(条)

      • 反俄毒招!世界杯遇尴尬:假球票1万余张,涉案金额1亿美金! 2019-06-14
      • 萨拉赫,你再不上 埃及队就要回家啦 2019-06-14
      • 中外学者齐聚拉萨 首届中国西藏拉萨阿里象雄文化国际学术研讨会召开 2019-06-09
      • 一语惊坛(5月22日):精忠报国是每一个热血青年的夙愿! 2019-06-06
      • 世界是动态发展与平衡的,不会静止不变,指导社会的理论也是不断发展完善的,由相对真理向绝对真理发展接近,这话不是我臆造的,来自学的大学课本根据马克思著作编写... 2019-06-06
      • 重庆 民俗文化进校园(我们的节日·端午) 2019-06-04
      • 太阳是宇宙加油站?不明物体多次靠近“加油”,看清后屏住呼吸 2019-06-04
      • 神算王 北单上下单双4c1过滤 qq飞车刷车软件 nba鹈鹕vs火箭 海南私彩微信投注 山西快乐10分开奖 主机游戏直播软件 重庆时时彩最近 三国全面战争steam各套餐价格 龙之谷手游新区开服吧 官方河南快3开奖 mg电子游戏一直输 英魂之刃吕布视频 玉皇大帝王母娘娘 nba篮球巨星墙纸 珀斯vs悉尼fc