百度抓取返回404,站长平台抓取异常没有提示,抓取诊断正常,求高手解决问题 悬赏18元 已结束
<p>在网站日志中发现一些返回码404,有很多</p><p>但是站长平台中抓取异常没有任何提示</p><p>抓取诊断测试也都是正常的,网页也可以正常打开</p><p>站长工具ping过了都没问题</p><p>而且发现一个规律,举例:</p><p><b>如果是下面这样的完整链接格式,返回404</b></p><p>220.181.108.186 - - [27/Aug/2020:08:48:35 +0800] "GET <b>/www.hupaige.com/2956.html</b> HTTP/1.1" 404 25182 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; </p><p><b>如果是这样的链接格式,/2956.html,返回200</b></p><p>220.181.108.149 - - [27/Aug/2020:06:27:11 +0800] "GET<b> /2956.html</b> HTTP/1.1" 200 85239 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"</p><p>所有的页面都是这样的,是我的链接设置有什么问题吗?</p><p>如果是第一种情况,是不是抓取的链接实际上是<b>www.hupaige.com/</b><b>www.hupaige.com/2956.html,</b>为什么会出现这种情况呢</p><p><br></p>
一、如果是下面这样的完整链接格式,返回404
- - [27/Aug/2020:08:48:35 +0800] "GET /www . hupaige . com / HTTP/" 404 25182 "-" "Mozilla/ (compatible; Baiduspider/
答:这肯定返回404 /www . hupaige . com/ 2956 . html 抓取的完整链接就是:https : / /www . hupaige . com/www . hupaige . com/ 2956 . html 那肯定是404了
把你的日志发给我,看看里面的链接
建议用相对地址,用绝对地址有一定概率会在前面加上域名
我从来没有分析日志,看来也要看一下
来看看