« yabootで他のディストリビューションを起動 | トップページ | Leopardのテキストエディット.appの仕様メモ (改訂) »

2009年3月16日 (月)

LeopardのSpotlightによる日本語テキストの内容検索

プレーンテキストファイルの場合

ファイルタイプがついていないテキストファイル(拡張子.txt、.pl、.php、.c など)は、Leopard 上で作成したものであればどのような文字コードであってもヒットする。他の OS(Tiger、Windows、Linux)上で作成したものは Shift JIS か BOM 付き UTF-8 でないとヒットしない。Leopard のコマンドラインプログラム(vi、nanoなど )で作成したものは、BOM なし UTF-8 なのか、ヒットしない。

ファイルタイプ TEXT がついているテキストファイルは、拡張子の有無にかかわらず、Shift JIS か BOM 付き UTF-8 のものだけがヒットする。逆に言うと、BOM なし UTF-8 や EUC や JIS のテキストファイルの内容を Spotlight 検索したければ、ファイルタイプをつけずに拡張子(.txt、.pl、.php、.cなど)をつけ、Leopard 上で編集しなければならない(テキストエディットで編集するか、さもなくば CotEditor、mi などでファイルタイプをつけないように設定して編集する)。

ファイルタイプ TEXT も拡張子もついていないテキストファイルは、どのような文字コードであってもヒットしない。テキストとは認識されないので当然である。

JapaneseText.mdimporter をインストールしていれば、上記に関わらず、テキストファイルならどの文字コードであってもヒットする。但し、拡張子がなく、ファイルタイプ TEXT がついているファイルは Shift JIS か BOM 付き UTF-8 のもののみヒットする。

HTML ファイルの場合

UTF-8 で書かれた .html ファイルは、文頭に DOCUTYPE 宣言もしくは <HTML> タグがあれば、文字コード指定がなくてもヒットする。

例:

<html>
何を言う?早見優?

Spotlight 検索で「何を言う?」を検索した場合、UTF-8 で書かれた上記の内容の .html ファイルはヒットする。

文字コードの指定があれば Shift JIS でも EUC-JP でも JIS (ISO-2022-JP) でもヒットする。文字コード指定のための <META> タグ以外のタグが全くなくてもヒットする。

例:

<meta http-equiv="Content-Type" content="text/html; charset=EUC-JP">
何を言う?早見優?

Spotlight 検索で「何を言う?」を検索した場合、EUC-JP で書かれた上記の内容の .html ファイルはヒットする。

上記に関わらず、<META> タグ内で robots を noindex と指定すればヒットしなくなる。

文字コード指定がなく、文頭に DOCUTYPE 宣言もしくは <HTML> タグも書かれていない .html ファイルはヒットしない。


« yabootで他のディストリビューションを起動 | トップページ | Leopardのテキストエディット.appの仕様メモ (改訂) »