« MavericksのFinderウィンドウの位置とサイズを個別記憶 | トップページ | Mavericksことえりユーザ辞書登録ショートカットworkflow[更新] »

2013年11月 4日 (月)

OS X MavericksのSpotlightによる日本語テキストの内容検索

HTML に関しては、Lion、Mountain Lion から若干の変更が見られる。

プレーンテキストファイルの場合

プレーンテキストファイル(拡張子.txt、.pl、.php、.c など)は、Leopard 以降の OS X 上で作成したものであればどのような文字コードであってもヒットする(文字コードを指定するメタデータがつくから)。

それ以外の OS(Tiger、Windows、Linux)上で作成したものは(メタデータがついていないため)Shift JIS か UTF-8 のみヒットし、EUC-JP や JIS (ISO-2022-JP) ではヒットしない(Snow Leopard 以前と違い、BOM 無し UTF-8 でもヒットする)。

OS X 上であってもコマンドラインプログラム(vi、nanoなど )で作成したものは(メタデータがついていないため) Shift JIS か UTF-8 のみヒットする。

また、OS X 上で作成したプレーンテキストファイルを 一旦 Windows などに移してから OS X のハードディスクに戻したような場合、(メタデータがなくなってしまうため)やはり EUC-JP や JIS はヒットしなくなる。

(注記:テキストエディット.app で「他の OS で作成した(メタデータのついていない)テキストファイル」を開いて文字コードのみを変更して別名保存した場合、メタデータがつかない。テキストの内容を変更してから別名保存するのであればメタデータはつく)

HTML ファイルの場合

UTF-8 で書かれた .html ファイルは、文頭に DOCUTYPE 宣言があれば、文字コード指定がなくてもヒットする。

例:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
何を言う?早見優?

Spotlight 検索で「何を言う?」を検索した場合、UTF-8 で書かれた上記の内容の .html ファイルはヒットする。

UTF-8 および Shift JIS で書かれた .html ファイルは、文頭に <HTML> タグがあれば、文字コード指定がなくてもヒットする。

例:

<html>
何を言う?早見優?

Spotlight 検索で「何を言う?」を検索した場合、Shift JIS で書かれた上記の内容の .html ファイルはヒットする。

文字コードの指定があれば EUC-JP でもヒットする。文字コード指定のための <META> タグ以外のタグが全くなくてもヒットする。

例:

<meta http-equiv="Content-Type" content="text/html; charset=EUC-JP">
何を言う?早見優?

Spotlight 検索で「何を言う?」を検索した場合、EUC-JP で書かれた上記の内容の .html ファイルはヒットする。

ISO-2022-JP で書かれた .html ファイルは Mavericks では全くヒットしない。<META> タグで文字コードを指定してあってもヒットしない。

上記に関わらず、<META> タグ内で robots を noindex と指定すればヒットしなくなる。

文字コード指定がなく、文頭に DOCUTYPE 宣言もしくは <HTML> タグも書かれていない .html ファイルはどのような文字コードであってもヒットしない。


« MavericksのFinderウィンドウの位置とサイズを個別記憶 | トップページ | Mavericksことえりユーザ辞書登録ショートカットworkflow[更新] »

コメント

コメントを書く

(ウェブ上には掲載しません)

« MavericksのFinderウィンドウの位置とサイズを個別記憶 | トップページ | Mavericksことえりユーザ辞書登録ショートカットworkflow[更新] »