User:CKoerner (WMF)/New Japanese language analyzer/ja
新しい検索解析エンジンについてご協力を
こんにちは
ウィキメディア財団の検索チームは、現行とは異なる新たな日本語形態素解析エンジンをMediaWiki検索に導入すれば検索結果にどのように影響を及ぼすか、理解する手助けをしてくれる日本語話者の人たちを求めています。
この解析エンジンの目的は、文章を単語に分解して、関連することばの形態素をまとめてindexし、一つを検索すれば残りも全部見つけることができるようにすることです。
今現在は、日本語ウィキペディアを検索すれば"バイグラム"(連続する2文字ずつ)の一致結果が返ってきます。たとえば、"ガラティア語" という語句は"ガラ", "ラテ", "ティ", "ィア", "ア語"というバイグラムに分割されます。新しい解析エンジンはこれを "ガラティア" と "語"というふたつの語に分割します。
この日本語形態素解析エンジンを使えば、おなじ一つの語のほかの形態素の一致結果も得ることができます。例えば、 "押さえ込ま", "押さえ込み", "押さえ込む", "押さえ込ん"のどれで検索してもほかの形態での一致結果を合わせて得ることができます。
もちろん、これとて完全ではありません。いつでも語句を完璧に分割できるわけではありませんし、一致する結果の一部を得損なったり、一致していない結果を含んでしまったりする場合もありますが、全体としての効果はマイナスよりもプラスのほうが大きいと期待できます。
私たちはWMF Labs(財団ラボ)に日本語版ウィキペディアのindexをコピーしました。ここで検索すれば、検索結果の抜粋が表示されます。ただし記事本体はラボ上にはありません。
これを試していただければ大変助かります。ラボで検索要求してみて、どう思うか、気に入るか、確かめてみて下さい。ラボと日本語版の両方で検索して結果を比べてみて下さい。
どんな感想でも—もちろん懸念や不満でも—大変ありがたいです!