J9集团

x1新 闻 资 讯

    百度spider专家现场QA集锦:抓取建库篇

    起源:上海J9集团网络 日期:2018-05-19 00:31 点击:

      问:为什么收录量像坐过山车一样的,还有为什么有些网页今天在明天就没了?
      答:百度会周期建库,且每个库的收录量是恒定的,你总是有新增,注定会再从库里裁减一些,归正总是维持那个库是满的。在建库的过程中,你会感触有颠簸。具体的怎么筛,哪个页面会留下哪个页面会裁减,这个战术是有好多的,他随着功夫的变动,收录的尺度战术也是在产生微调。
      问:我们站点使用CDN加快会不会比力容易造成蜘蛛无法抓取?由于有时辰批改掉他绑定的什么器材。
      答:若是要批改掉肯定要通知到上一级,此刻不存在这个问题,此刻你若是批改掉也能够解析掉,之前可能会存在这个问题。
      问:你们百度自己也有一个CDN加快,对抓录排名有没有影响?
      答:在使用CDN加快这个问题上,我们对所有站点因人而异。但我建议你使用技术能力强的CDN服务商,保障站点的不变和速度,百度会更喜欢。

      问:刚才您说IP上的站点数不能太多,那CDN这种情况怎么办?
      答:CDN的情况另说,若是我们鉴别出来是CDN的话不会受站点数量的影响,若是你是提供独立IP的话会有这样一些问题。

      问:还是IP上站点数量的问题,若是是主域跟二级域名呢?也受数量限度?
      答:我说的是独立域名。当然质量比力好的二级域名也能够以为是独立域名
      问:多个域名,他有一样的一些内容,怎么建库?
      答:若是是多域名在统一个主域下面有一样内容的话,不成能所有都建库,并且被建库的那个可能不是你但愿的那个,所以尽量不要有一样的内容。
      问:刚才讲的IP若是是多域名的话,好几百个IP域名,此刻我们也用了CDN,依照刚才的说法,单个IP最多抓几多?1000万是说对站点还是对IP?
      答:对IP,但1000万是我举例,不是现实的数据,这个数据不会分享出来的
      问:此刻我的网站被好多蜘蛛爬,我想只让百度蜘蛛爬,百度蜘蛛IP几多?能设白名单么?
      答:百度蜘蛛IP是不休变的,此刻网上简直有一些白名单的说法,临时是有效的,但不保障今后不会变,所以建议站点还是通过ua进行判断,我们百度站长平台上有有关的文章,你能够找一下。
      问:若是我写robots只想禁掉动态链接的话,会不会影响动态参数前面正常链接的抓取?
      答:不会的,你原来的页面还在,注定会抓。
      问:好比我们一个域名,我们想把带?号的url全数禁掉,首页我们不要禁掉,怎么弄?
      答:?前面有个*,后面再有个*就能够了。
      问:我想相识,若是我此刻收录有5万,或很多长功夫能力把我原来收录5万沉新抓取一遍?
      答:分歧站点不好说,一个是你站点做的很好,驰名度很响更新很快质量很好就会快;若是你的站点默默无闻,贡献很少,可能就会很慢。
      问:就是差不多的情况,或许。
      答:这个没有人能估出来。
      问:百度站长平台上罕见据提交的工具,我们实时提交,你们也会实时抓取吗?
      答:不会,他会有一层判断。此刻只是通知你提交成功,后面什么时辰抓,什么时辰建库没有,我们在钻研要不要把这个分享出来。
      问:我网站有一些列表页,都没有链接,不安百度抓不到
      答:此刻百度站长平台的站内搜索工拥有一个绿色收录通路,在那里提交种子页,我们就知路的。
      问:提交种子页面必必要用站搜?
      答:是的。
      问:若是说页面里url出格多的话,蜘蛛会不会有选择性的进行抓取?
      答:不会,他城市一个不漏给你提出来,但会把JS、CSS这样的链接给过滤掉。但请把稳,全数抓取过来之后会进行筛选,并不是所有城市建库。
      问:此刻好多网站都有自己的站内搜索,城市产生站内搜索了局页,百度不喜欢搜索了局页的话,我们用这个会不会对我们有影响?只是不喜欢还是对我们网站会有惩治
      答:蜘蛛会去抓,抓完之后沉要是提取里面的链接。若是只有一两条这样的页面质量不好问题不大,若是整体质量较差,有可能受到惩治。
      问:新出的时效性文章其时没有被收录,后期是否还会被收录?
      答:会
      问:站点每天最高爬虫几多次?
      答:这个其实说不好,有的站点我们一天会抓一两千万,有的站点只抓几个、几十个,看你的规模和质量,并且这个抓取量也是会凭据网站的情况进行调整的。

    xs3
【网站地图】