読者です 読者をやめる 読者になる 読者になる

ウオッカ問題

ウオッカ」という馬がいます。牝馬ながらダービーを勝つ等、GI6勝で現在中央競馬の中心にいる馬と言っても良いでしょう。
ところがこの「ウオッカ」という馬名。「ウォッカ(オが小文字)」ではなく、「ウオッカ(オが大文字)」なのです。馬名の由来はやはり酒のウォッカからなのですが、JRAの馬名登録の規則により連続して小文字を使うことができないからなのです。
熱心な競馬ファンであれば、あの馬が「ウオッカ」である事を知っています。ですがライトなファンは「ウォッカ」と思いがちです。
さて本題。「ウオッカ」は紛れもなく「ウオッカ」本馬そのものですが、競馬の世界においては「ウォッカ」は正しい馬名ではないですが「ウオッカ」本馬を指すべきところでしょう。

というわけで一番有名な競馬ポータルnetkeibaで検索してみました。
http://db.netkeiba.com/
(検索フォームから競走馬を検索することができます。こちらのデータも元ネタはJRA-VANからのものだと思われます。)
結果は「ウォッカ」では「ウオッカ」はヒットせず、「ウオッカ」でないとヒットしません。おそらくnetkeibaはDBへの完全、部分一致による検索なのでしょう。
ちなみにgoogleのような全文検索では「ウォッカ」は酒を抑えて馬の方がトップに来ました。
http://www.google.co.jp/search?q=%E3%82%A6%E3%82%A9%E3%83%83%E3%82%AB&ie=utf-8&oe=utf-8&aq=t&rls=com.ubuntu:en-US:unofficial&client=firefox-a

DBの完全一致・部分一致ではこのようなかゆい所に手が届きませんが、全文検索ではこのような言葉の揺れに考慮した検索結果が期待できます。これはどう形態素解析方式にもよりますが、揺れに対応できるようなインデックスが作成されるということです。
他にも有名どころでは、「京都」で「東京都」ではなく「京都」がヒットするかどうかとか。「デジタル」で「ディジタル」がヒットするかどうかとか。こういうのを試すとどういう検索方式になっているかある程度推測できますね。

まあ何にせよ、やっぱり「ウォッカ」で「ウオッカ」がヒットしないのはイケてないですよ。