« JavaScript for Automationを試す | トップページ | Yosemite関連のまとめ[更新] »

2014年10月19日 (日)

OS X YosemiteのSpotlightによる日本語テキストの内容検索[改訂版]

プレーンテキストについては Mavericks から変化はない。

プレーンテキストファイルの場合

プレーンテキストファイル(拡張子.txt、.pl、.php、.c など)は、Leopard 以降の OS X 上で作成したものであればどのような文字コードであってもヒットする(文字コードを指定するメタデータがつくから)。

それ以外の OS(Tiger、Windows、Linux)上で作成したものは(メタデータがついていないため)Shift JIS か UTF-8 のみヒットし、EUC-JP や JIS (ISO-2022-JP) ではヒットしない。

OS X 上であってもコマンドラインプログラム(vi、nanoなど )で作成したものは(メタデータがついていないため) Shift JIS か UTF-8 のみヒットする。

HTML ファイルの場合

HTML については Yosemite で大きな変化がある。

EUC-JP および JIS (ISO-2022-JP) で書かれた .html ファイルは Yosemite では全くヒットしない。<META> タグで文字コードを指定してあってもヒットしない。OS X 上のテキストエディターで編集したことにより文字コードを指定するメタデータがついていたとしても、拡張子が .html である限りヒットしない。この点はプレーンテキストとは異なる。

逆に、UTF-8 もしくは Shift JIS でさえあれば、必ずヒットする。正しい HTML 構造をとっていようといまいと、<META> タグで文字コードを指定していようといまいとヒットする。

但し、上記に関わらず、<META> タグ内で robots を noindex と指定すればヒットしなくなる。

« JavaScript for Automationを試す | トップページ | Yosemite関連のまとめ[更新] »

コメント

コメントを書く

(ウェブ上には掲載しません)

« JavaScript for Automationを試す | トップページ | Yosemite関連のまとめ[更新] »