UAX #14 と UAX #29 のつじつまあわせ

| トラックバック(0)
UAX #29 では
Word boundaries, line boundaries, and sentence boundaries should not occur within a grapheme cluster: in other words, a grapheme cluster should be an atomic unit with respect to the process of determining these other boundaries.
と述べているが、このとおりにするために、UAX #14 では若干苦しいつじつまあわせをしている。 具体的には、UAX #14 で CM に分類される文字と、UAX #29 で書記素エキステンダとなる文字 (書記素クラスタ分割特性が Extend または SpacingMark の文字) とが一致していない。

まず、行分割特性が CM なのに書記素クラスタ分割特性が Extend や SpacingMark ではないもの。 これらは単独の書記素クラスタになるが前の書記素クラスタとの間で行分割できない。 ほかの CM の文字はすべて書記素エキステンダになりうるためほかの文字を書記素基底とする書記素クラスタに含まれてしまう。 LB9 は実質的に combining mark の処理ではなく、これらの書式文字の処理のために必要になっている。

UCS名前LBCGCB
U+0000..U+0008, U+000E..U+001F, U+007F, U+0080..U+0084, U+0086..U+009F<control>CMControl
U+200ELEFT-TO-RIGHT MARKCMControl
U+200FRIGHT-TO-LEFT MARKCMControl
U+202ALEFT-TO-RIGHT EMBEDDINGCMControl
U+202BRIGHT-TO-LEFT EMBEDDINGCMControl
U+202CPOP DIRECTIONAL FORMATTINGCMControl
U+202DLEFT-TO-RIGHT OVERRIDECMControl
U+202ERIGHT-TO-LEFT OVERRIDECMControl
U+206AINHIBIT SYMMETRIC SWAPPINGCMControl
U+206BACTIVATE SYMMETRIC SWAPPINGCMControl
U+206CINHIBIT ARABIC FORM SHAPINGCMControl
U+206DACTIVATE ARABIC FORM SHAPINGCMControl
U+206ENATIONAL DIGIT SHAPESCMControl
U+206FNOMINAL DIGIT SHAPESCMControl
U+FFF9INTERLINEAR ANNOTATION ANCHORCMControl
U+FFFAINTERLINEAR ANNOTATION SEPARATORCMControl
U+FFFBINTERLINEAR ANNOTATION TERMINATORCMControl
U+1D173MUSICAL SYMBOL BEGIN BEAMCMControl
U+1D174MUSICAL SYMBOL END BEAMCMControl
U+1D175MUSICAL SYMBOL BEGIN TIECMControl
U+1D176MUSICAL SYMBOL END TIECMControl
U+1D177MUSICAL SYMBOL BEGIN SLURCMControl
U+1D178MUSICAL SYMBOL END SLURCMControl
U+1D179MUSICAL SYMBOL BEGIN PHRASECMControl
U+1D17AMUSICAL SYMBOL END PHRASECMControl
U+E0001, U+E0020..U+E007FTagsCMControl

つぎに、行分割特性が CM ではないのに書記素クラスタ分割特性が Extend や SpacingMark であるもの。 これらは書記素エキステンダになりうるが、行分割の際に LB9 を適用して無視するわけにはいかない。 書記素クラスタの後の行分割動作を変更する役割を果たしている。

  • ダブルダイアクリティカルマークが含まれているのは納得がいく。
  • rnam bcad はチベット文字を知らないのでよくわからないが、ヴィサルガ記号は語末にしかつかないものなのか?
  • 半角形の濁点/半濁点は意図不明。これらの文字を結合文字を意図して使っている例があるということ? そうだとしても、これらの文字が後置された後では ideographic に分割可能になってしまうのはやりすぎでは?
UCS名前LBCGCB
U+034FCOMBINING GRAPHEME JOINERGLExtend
U+035CCOMBINING DOUBLE BREVE BELOWGLExtend
U+035DCOMBINING DOUBLE BREVEGLExtend
U+035ECOMBINING DOUBLE MACRONGLExtend
U+035FCOMBINING DOUBLE MACRON BELOWGLExtend
U+0360COMBINING DOUBLE TILDEGLExtend
U+0361COMBINING DOUBLE INVERTED BREVEGLExtend
U+0362COMBINING DOUBLE RIGHTWARDS ARROW BELOWGLExtend
U+0F7FTIBETAN SIGN RNAM BCAD (visarga)BASpacingMark
U+FF9EHW. KATAKANA VOICED SOUND MARKNSExtend
U+FF9FHW. KATAKANA SEMI-VOICED SOUND MARKNSExtend

トラックバック(0)

トラックバックURL: http://hatuka.nezumi.nu/cgi-bin/mt/mt-tb.cgi/34

このブログ記事について

このページは、Hatuka*nezumiが2009年12月20日 00:15に書いたブログ記事です。

ひとつ前のブログ記事は「LUKS を使って Linux と Windows の両方から読み書きできる暗号化ボリュームを作成する (承前) Linux」です。

次のブログ記事は「Chicago Manual of Style での URL の行折り」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。