Unicode Standard と JIS X 4051 との比較: 行分割(2)

| トラックバック(0)
表1 の分析から、JIS X 4051 の文字クラスと UAX #14 の Line Breaking Class をカスタマイズして、 両者を適合させた(つもり)。
  • (1) 始め括弧類 と (2) 終わり括弧類 のそれぞれ一部は QU 向きづけ不能な引用符 に割り当てる。
  • (2) 終わり括弧類 と (7) 区点類 には空き量の違いしかないので、(7) 区点類は両方とも (2) 閉じ括弧類 / CL 閉じ句読点 にする。 ただし、1-1-4 COMMA と 1-1-5 FULL STOP については、Normalized Form のみ (18S) 連数字中の文字 / IS 数字区切り とする。
  • 1-1-7 COLON と 1-1-8 SEMICOLON については、Fullwidth / Vertical Presentaion Form は (6) 中点類とみなすが、 Normalized Form は (18S) 連数字中の文字 IS 数字区切り とする。
  • (3) 行頭禁則和字 と (6) 中点類は空き量とルビ処理での違いしかないので、 両方とも NS 行頭禁則文字 にする。
  • (4) ハイフン類は NS 行頭禁則文字 と BA 後行折り可能 に割り当てる。
  • 1-1-29 EM DASH は欧字の処理に合わせて B2 両側行折り可能に割り当てる。 一方 1-1-29V PRESENTATION FORM FOR VERTICAL EM DASH は、和字の処理に合わせて IN 分離禁止とするも、B2 両側行折り可能に割り当てる。 1-1-37V、1-2-19、1-2-20、1-2-21 も同じ。
  • [2006/06/19 追加] 1-1-36 HORIZONTAL ELLIPSIS、1-1-37 TWO DOT LEADER は UAX では IN 分離禁止文字 だが JIS の (8) 分離禁止 (UAX の B2 両側行折り可能にあたる) とは異なる。 欧文脈と和文脈で使い分けるべき。
  • [2006/06/19 追加] 縦書二倍繰り返し符号 1-2-19、 1-2-20、1-2-21 は上下の文字を分離禁止とすべき。 B2 両側行折り可能 (分離禁止) に割り当てるか?
  • 1-1-32 REVERSE SOLIDUS、1-1-84 NUMBER SIGN、1-1-60 PLUS SIGN、1-1-61 MINUS SIGN、1-1-62 PLUS-MINUS SIGN、 1-3-59 MINUS-OR-PLUS SIGN は、(9) 前置省略記号 / PR ブリフィクス (数字) とする。 ただし 1-1-84F NUMBER SIGN (Fullwidth) は (13) その他和字 / ID 象形文字的 とする。
  • (12) 平仮名と (13) その他和字 はルビ処理での違いしかないので、どちらも (13) その他和字 / ID 象形文字的 とする。
  • 全角数字は (18N) 連数字中の文字 (数字) / NU 数字 とはしない。 (13) その他和字 / ID 象形文字的 とする。

この結果、表2 UAX #14 と JIS X 4051 のカスタマイズ のようになる。

  • 2006/06/19 修正。表はまだ修正していない。

トラックバック(0)

トラックバックURL: http://hatuka.nezumi.nu/cgi-bin/mt/mt-tb.cgi/23

このブログ記事について

このページは、Hatuka*nezumiが2006年5月 5日 16:20に書いたブログ記事です。

ひとつ前のブログ記事は「Unicode Standard と JIS X 4051 との比較: 行分割(1)」です。

次のブログ記事は「Unicode Standard と JIS X 4051 との比較: 文字幅(1)」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。