<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>餅空blog WordPress支店 &#187; 検索</title>
	<atom:link href="http://wordpress.mochy.com/category/%e6%a4%9c%e7%b4%a2/feed/" rel="self" type="application/rss+xml" />
	<link>http://wordpress.mochy.com</link>
	<description>PC、プログラム、ネットの事などを少しずつ綴ってみる</description>
	<lastBuildDate>Tue, 26 Jan 2010 20:36:45 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.9.1</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>SlurpじゃないYahoo!のクローラー</title>
		<link>http://wordpress.mochy.com/2008/07/slurp%e3%81%98%e3%82%83%e3%81%aa%e3%81%84yahoo%e3%81%ae%e3%82%af%e3%83%ad%e3%83%bc%e3%83%a9%e3%83%bc/</link>
		<comments>http://wordpress.mochy.com/2008/07/slurp%e3%81%98%e3%82%83%e3%81%aa%e3%81%84yahoo%e3%81%ae%e3%82%af%e3%83%ad%e3%83%bc%e3%83%a9%e3%83%bc/#comments</comments>
		<pubDate>Tue, 29 Jul 2008 15:05:53 +0000</pubDate>
		<dc:creator>mochy</dc:creator>
				<category><![CDATA[検索]]></category>
		<category><![CDATA[seo]]></category>
		<category><![CDATA[Yahoo!]]></category>

		<guid isPermaLink="false">http://wordpress.mochy.com/?p=140</guid>
		<description><![CDATA[通常、Yahoo! Slurpのクローラーは
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
 というUserAgentだと思うんだけど、そのクローラーと同じIPアドレスから
Mozilla/5.0 (X11; U; Linux i686 (x86_64); en-US; rv:1.8.1.4) Gecko/20080721 BonEcho/2.0.0.4
というUserAgentでのアクセスがあった。2.0.0.4の割にはGecko炎神エンジンが新しいなぁ。
画像とかは読んでないようなのでクローラーに間違いないんでしょうけど、これはいったいなんだろう。クローキングしてるサイトでも調べてるんでしょうか？
]]></description>
			<content:encoded><![CDATA[<p>通常、Yahoo! Slurpのクローラーは</p>
<blockquote><p>Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)</p></blockquote>
<p> というUserAgentだと思うんだけど、そのクローラーと同じIPアドレスから</p>
<blockquote><p>Mozilla/5.0 (X11; U; Linux i686 (x86_64); en-US; rv:1.8.1.4) Gecko/20080721 BonEcho/2.0.0.4</p></blockquote>
<p>というUserAgentでのアクセスがあった。2.0.0.4の割にはGecko<del datetime="2008-07-29T14:37:26+00:00">炎神</del>エンジンが新しいなぁ。</p>
<p>画像とかは読んでないようなのでクローラーに間違いないんでしょうけど、これはいったいなんだろう。クローキングしてるサイトでも調べてるんでしょうか？</p>
]]></content:encoded>
			<wfw:commentRss>http://wordpress.mochy.com/2008/07/slurp%e3%81%98%e3%82%83%e3%81%aa%e3%81%84yahoo%e3%81%ae%e3%82%af%e3%83%ad%e3%83%bc%e3%83%a9%e3%83%bc/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>baidu(百度)はrobots.txtの解釈が他と少し違う</title>
		<link>http://wordpress.mochy.com/2008/06/baidu%e7%99%be%e5%ba%a6%e3%81%afrobotstxt%e3%81%ae%e8%a7%a3%e9%87%88%e3%81%8c%e4%bb%96%e3%81%a8%e5%b0%91%e3%81%97%e9%81%95%e3%81%86/</link>
		<comments>http://wordpress.mochy.com/2008/06/baidu%e7%99%be%e5%ba%a6%e3%81%afrobotstxt%e3%81%ae%e8%a7%a3%e9%87%88%e3%81%8c%e4%bb%96%e3%81%a8%e5%b0%91%e3%81%97%e9%81%95%e3%81%86/#comments</comments>
		<pubDate>Mon, 30 Jun 2008 13:37:07 +0000</pubDate>
		<dc:creator>mochy</dc:creator>
				<category><![CDATA[検索]]></category>
		<category><![CDATA[Baidu]]></category>
		<category><![CDATA[Googlebot]]></category>
		<category><![CDATA[YST]]></category>

		<guid isPermaLink="false">http://wordpress.mochy.com/?p=91</guid>
		<description><![CDATA[BaiduspiderというBaidu(百度)のクローラーだけど、GooglebotやYSTのクローラーとrobots.txtの解釈が少し違うようだ。

以下は実際の設定を少し書き換えて表現した架空のものだが、
/entery_20080618_hogehoge.html
/entery_20080621_hagehage.html
/entery_20080621_foobar.html
といったURLをクロールして欲しくなくて以下のような設定を行った。
PLAIN TEXT
CODE:




User-agent: *


Disallow: /entry_ 






この場合、GooglebotやYahoo! Slurpは、/entry_ で始まる全てのURLをクロールしないが、Baiduだけは構わずしてくる。おそらくGooglebotやYSTは前方一致、baiduspiderは完全一致で判断していて、この設定でBaiduspiderがクロールしないのは /entry_ で終わるURL一つ (/entery_$と同じ?) だけなのだろう。
Googleのウェブマスターツールにある運用ツールでrobots.txtの挙動テストを行った限りでは、この設定で問題はなかった。
robots.txtの解釈はそれぞれの検索エンジン次第だろうから、GooglebotやYSTで思惑通りに機能するからといってBaiduに同じ挙動を望むのはこちらの身勝手だろうと思われる。
そんなわけで、とりあえずワイルドカードにしてみた。
PLAIN TEXT
CODE:




User-agent: *


Disallow: /entry_* 






1週間後に再度チェックしてみる。これで駄目だとURLを全部羅列しないといけないわけで、その場合、こうなります。
PLAIN TEXT
CODE:




user-agent: baiduspider


disallow: / 






ヘルプセンター - 検索全般について（利用環境について） (百度)
を読んでもワイルドカードが使えるとはどこにも書いてないなぁ。
＃追記 (2008/7/12 12:45)
ワイルドカード、使えてるようです。クロールされなくなりました。
]]></description>
			<content:encoded><![CDATA[<p>BaiduspiderというBaidu(百度)のクローラーだけど、GooglebotやYSTのクローラーとrobots.txtの解釈が少し違うようだ。<br />
<span id="more-91"></span><br />
以下は実際の設定を少し書き換えて表現した架空のものだが、</p>
<p>/entery_20080618_hogehoge.html<br />
/entery_20080621_hagehage.html<br />
/entery_20080621_foobar.html</p>
<p>といったURLをクロールして欲しくなくて以下のような設定を行った。</p>
<div class="igBar"><span id="lcode-4"><a href="#" onclick="javascript:showCodeTxt('code-4'); return false;">PLAIN TEXT</a></span></div>
<div class="syntax_hilite"><span class="langName">CODE:</span>
<div id="code-4">
<div class="code">
<ol>
<li style="font-family: 'Courier New', Courier, monospace; color: black; font-weight: normal; font-style: normal;color:#3A6A8B;">
<div style="font-family: 'Courier New', Courier, monospace; font-weight: normal;">User-agent: *</div>
</li>
<li style="font-weight: bold;color:#26536A;">
<div style="font-family: 'Courier New', Courier, monospace; font-weight: normal;">Disallow: /entry_ </div>
</li>
</ol>
</div>
</div>
</div>
<p></p>
<p>この場合、GooglebotやYahoo! Slurpは、/entry_ で始まる全てのURLをクロールしないが、Baiduだけは構わずしてくる。おそらくGooglebotやYSTは前方一致、baiduspiderは完全一致で判断していて、この設定でBaiduspiderがクロールしないのは /entry_ で終わるURL一つ (/entery_$と同じ?) だけなのだろう。</p>
<p>Googleのウェブマスターツールにある運用ツールでrobots.txtの挙動テストを行った限りでは、この設定で問題はなかった。<br />
robots.txtの解釈はそれぞれの検索エンジン次第だろうから、GooglebotやYSTで思惑通りに機能するからといってBaiduに同じ挙動を望むのはこちらの身勝手だろうと思われる。</p>
<p>そんなわけで、とりあえずワイルドカードにしてみた。</p>
<div class="igBar"><span id="lcode-5"><a href="#" onclick="javascript:showCodeTxt('code-5'); return false;">PLAIN TEXT</a></span></div>
<div class="syntax_hilite"><span class="langName">CODE:</span>
<div id="code-5">
<div class="code">
<ol>
<li style="font-family: 'Courier New', Courier, monospace; color: black; font-weight: normal; font-style: normal;color:#3A6A8B;">
<div style="font-family: 'Courier New', Courier, monospace; font-weight: normal;">User-agent: *</div>
</li>
<li style="font-weight: bold;color:#26536A;">
<div style="font-family: 'Courier New', Courier, monospace; font-weight: normal;">Disallow: /entry_* </div>
</li>
</ol>
</div>
</div>
</div>
<p></p>
<p>1週間後に再度チェックしてみる。これで駄目だとURLを全部羅列しないといけないわけで、その場合、こうなります。</p>
<div class="igBar"><span id="lcode-6"><a href="#" onclick="javascript:showCodeTxt('code-6'); return false;">PLAIN TEXT</a></span></div>
<div class="syntax_hilite"><span class="langName">CODE:</span>
<div id="code-6">
<div class="code">
<ol>
<li style="font-family: 'Courier New', Courier, monospace; color: black; font-weight: normal; font-style: normal;color:#3A6A8B;">
<div style="font-family: 'Courier New', Courier, monospace; font-weight: normal;">user-agent: baiduspider</div>
</li>
<li style="font-weight: bold;color:#26536A;">
<div style="font-family: 'Courier New', Courier, monospace; font-weight: normal;">disallow: / </div>
</li>
</ol>
</div>
</div>
</div>
<p></p>
<p><a href="http://help.baidu.jp/system/04.html">ヘルプセンター - 検索全般について（利用環境について）</a> (百度)</p>
<p>を読んでもワイルドカードが使えるとはどこにも書いてないなぁ。</p>
<p>＃追記 (2008/7/12 12:45)<br />
ワイルドカード、使えてるようです。クロールされなくなりました。</p>
]]></content:encoded>
			<wfw:commentRss>http://wordpress.mochy.com/2008/06/baidu%e7%99%be%e5%ba%a6%e3%81%afrobotstxt%e3%81%ae%e8%a7%a3%e9%87%88%e3%81%8c%e4%bb%96%e3%81%a8%e5%b0%91%e3%81%97%e9%81%95%e3%81%86/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

