UAX #14の最近のブログ記事

Chicago Manual of Style 15版 () での URL および電子メールアドレスの行折り (抄訳)。16版はまだ読んでない。

6.17
URL および電子メールアドレス インターネットアドレスでは、ピリオド (ドット) のあとに間隔を入れない。URL や電子メールアドレスを印刷行の終端で分割する必要があれば、ピリオドは新たな行に現れるべきで、前の行の終端に現れてはならない。(後略)
7.44
URL および電子メールアドレス URL や電子メールアドレスを分割する必要があるときは、ハイフンを用いるべきではない。分割は構成要素の間か、コロン、スラッシュ、ダブルスラッシュ、@ 記号のあとで行うべきで、ピリオドやその他の句読点や記号の前では行うべきではない。誤読を避けるため、ハイフンを含む URL はハイフンで分割してはならない。(後略)
17.11
URL と行折り 印刷物では、URL を行の終端で分割しなければならないとき、ダブルスラッシュ (//) または単一のスラッシュ (/) のか、チルダ (~)、ピリオド、カンマ、ハイフン、下線 (_)、疑問符、番号記号、パーセント記号のか、等号、アンパサンドの前後で分割を行うべきである。URL には、行折りを示すためにハイフンを付加してはならないし、URL の一部であるハイフンは行の終端に現れてはならない。(後略)

— The Chicago Manual of Style, 15th edition. University of Chicago Press, 2003.

6.17 と 17.11 に基づく分割規則は、次のようなものになる (と思う)。

  • 17.11 1-1: [/] ÷ [^/]
  • 17.11 2: [-] ×
  • 6.17 2: [.] ×
  • 17.11 1-2: ÷ [-~.,_?#%]
  • 17.11 1-3: ÷ [=&]
  • 17.11 1-3: [=&] ÷
  • Default: ALL × ALL
UAX #29 では
Word boundaries, line boundaries, and sentence boundaries should not occur within a grapheme cluster: in other words, a grapheme cluster should be an atomic unit with respect to the process of determining these other boundaries.
と述べているが、このとおりにするために、UAX #14 では若干苦しいつじつまあわせをしている。 具体的には、UAX #14 で CM に分類される文字と、UAX #29 で書記素エキステンダとなる文字 (書記素クラスタ分割特性が Extend または SpacingMark の文字) とが一致していない。
というわけで、UAX#14 モジュールを書いた。
すでに JIS X 4051 と関係なくなってきているような気もするが、UAX #14 の行分割アルゴリズムのカスタマイズ。ぶら下げ処理を追加する。
実際のフォントとの比較をしてみる。

Unicode Standard Annex #11 (UAX #11) East Asian Width のうち、
"A" (Anbiguous) とされるものの典拠を調べる。

表1 の分析から、JIS X 4051 の文字クラスと UAX #14 の Line Breaking Class をカスタマイズして、 両者を適合させた(つもり)。
Unicode Standard と JIS X 4051:2004 『日本語文書の組版方法』との比較をする。 まず、行分割について。

このアーカイブについて

このページには、過去に書かれたブログ記事のうちUAX #14カテゴリに属しているものが含まれています。

前のカテゴリはSympa - Systeme de Multi-Postage Automatiqueです。

次のカテゴリはその他です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。