User:Yes0song/ko自動変換モジュール
|
この文書はまだ作成中です。
このページはko-kr(韓国語[1]・大韓民国標準語・ハングル専用文)、ko-hanja(韓国語・大韓民国標準語・ハングル漢字混用文)、ko-kp(韓国語・北韓[2]・ハングル専用文)の間の自動変換(automatic conversion)に関する私案です。Automatic conversion between simplified and traditional Chinese、Automatic conversion in Serbian languageを参考にしました。
この文書を作成した動機は、Requests for new languages#Wikipedia in Hanjaでko-hanja Wikipediaをkoと別途に開設することに関して否定的な見解もあったためです。漢字→ハングル自動変更モジュールを開発してkoに搭載させれば敢えてko-hanjaを開設しなくても良いはずだと、いう意見です。
そして私はこの文書で、koでko-krとko-hanjaの間で自動変換する方法を考えてみました(また、一歩進んでko-kpも包括した自動変換に関しても考えました。
関連する意見や質問はko:사용자토론:Yes0songにお願いします。
以下敬語は省略します。
ko-krとko-hanjaの間の自動変更
[edit]基本機能
[edit]漢字→ハングルの自動変更は難しくないが、ハングル→漢字の自動変更は技術的な理由でほとんど不可能に近い。となるとko-kr→ko-hanjaはあきらめなければならないだろう。koの記事が漢字・ハングル混用文で作成されていればko-krではそれをハングル専用文に転換する機能をMediaWikiで提供するようにしなければならないだろう。
現在MediaWikiは、Unicode定規化アルゴリズムの影響でCJK Compatibility Ideographs 領域にある漢字はUnified CJK Ideographsに変換、マッピングさせている。
長い間大韓民国の文字コード体系では、漢字の発音がいくつかある場合、同じ漢字であっても一つ一つにコードを割り当てる方式を使ってきた(反面、中国語と日本語コードと韓国語の拡張漢字は1字につき1コードだけ割り当てている)。これがUnicodeに含まれるようになってからは、代表的な音を持つ文字だけUnified CJK Ideographsに含まれ、残りはCJK Compatibility Ideographs領域に割り当てられるようになった。
MediaWikiはCJK Compatibility Ideographs領域に入力されると、自動的にUnified CJK Ideographsの文字に変換してしまう(Unicode定規化アルゴリズムの使用)。しかしこれは漢字→ハングルの自動変換を難しくする要因となる。CJK Compatibility Ideographs領域の韓国語漢字は漢字の発音まで考慮されているので、漢字でハングルで自動変換する時に便利に利用することができる。
そうすると、ko-kr↔ko-hanja自動変換機を使用するために、漢字のUnicode定規化アルゴリズムを無効にするようにMediaWikiを修正することが必要となるだろう。それならば同じ漢字に発音がいくつかあってもハングルに変えるのに問題がないだろう。