Culture
Root > Cultural Anthropology > Linguistics > Extensible Transcription Method
<!DOCTYPE HTML PUBLIC "ISO/IEC 15445:2000//DTD HyperText Markup Language//EN">
このルール(Extensible Transcription Method. 以下、ETMと略)は、多言語のローマナイズ表記をASCIIキャラクタのみで、そして可能な限り多くの非JIS漢字の表記をJIS第1第2水準のJIS漢字とASCIIキャラクタのみで行うためのものである。
ETMを用いることにより、多くの言語を特殊な環境無しでローマナイズ表記することができる。
また、ルールに従う限りにおいて、使用者が各個に拡張することが可能であり、ルールを知る限りにおいて閲覧者は拡張された表記を何の問題なく理解できる。
ETMは特定の文字体系のローマナイズルールではない。既に或るルールが定められたローマナイズ表記の際に、ASCIIキャラクタのみでは表記不可能な文字(例えばドイツ語のウムラウト、サンスクリットのアヌスヴァーラのローマナイズ m の下に小さな点が付される、など)をASCIIキャラクタのみで表記するためのルールである。
以下の参考文献にも記したが、このメソッドでは次のサイトから多くを参考にした。改めて謝意を表する。
また、島根県立大学e漢字はフォントの利用の他に、異体字に関して多くを参考にした。
中華民國教育部《異體字字典》では異体字に関して多くの示唆を受けた。
市(仮名)女史には実務レベルの運用テストで大変お世話になっている。「パーツの置換」ルールは彼女がいなければ生まれなかったであろう。改めてここに謝意を表する。
本ルールの作成には次のサイトを参考にした。この場を借りて謝意を表したい。
また2007-01-22現在、ETMはUnicodeの使用を非推奨としているにも拘らず、この文書はUTF-8で書かれている、これは例示される漢字にJISに無い文字があるためと共に、以下にあるように、近い将来Unicodeの使用にシフトする事を想定しているためである。さらにUnicodeにも含まれない文字についてはの漢字フォントを利用した。
[ ](大括弧)で括られたものを拡張1文字とする。[ ]内ではパーツとなる文字とそれらの配置を意味する演算子が含まれる。したがって1文字は最低、[ ]と2つ以上の文字で構成される。
ASCIIキャラクタ及び、JIS第1・第2水準に含まれる漢字及び、JIS第1・第2水準に含まれ、かつASCIIキャラクタに半角文字が含まれない全角記号。推奨
2006-08-01時点でUnicodeにのみ含まれる文字の使用は非推奨である。ただし近い将来Unicodeの使用にシフトするであろう。
[ ]内において、半角スペース、全角スペースなどの空白文字は無視される。従って表示上連続して見えて、各パーツ、演算子が判別しにくい場合は任意に空白文字を入れてもよい。ホワイトスペースに含まれる、改行、タブは使用してはいけない。
複数の文字体系が混在する場合はそれぞれの文字体系を明示しなければならない。ローマナイズされる文字体系を明示する場合は以下のルールによって明示する。error
ローマナイズされた部分全体を{ }(中括弧)で括りその開始部分に< >で括った中に文字体系はC:に続いてISO639-2の3文字略号を用いて明示する。
また、そこに表記される言語を明示することが必要ならば、C:の代わりにL:を用いて明示する。この場合は必ず文字体系 C:を前述しなければならない。fatal error
e.g.チベット文字によってサンスクリット語が記述されたものをローマナイズする場合で、使用言語サンスクリットを明示する場合。
{<C:tib L:san> pad ma}
上記の例のように単語あるいは短文の指示ではなく、長文に文字・言語指示を行いたい場合は{ }で始まり{/}で閉じることもできる。
{<C:tib> pad ma} と {<C:tib>} pad ma {/} は同じである。
文書中にETMの使用部分と非使用部分とが混在し、その区別を明示する場合はETMの使用宣言を行う。
これは{etm}で始まり{/etm}で終わる。
{etm} {/etm}
ルートの括弧は[ ](大括弧)を用い、その内部の入れ子の括弧は( )(丸括弧)を用いて、ルートと内部とを明示する。
e.g. š = [(-^)/s]
入れ子の数は限定しない。また、入れ子はまたぐ事はできない。すなわち、入れ子の世代の関係を崩してはいけない。
演算子として利用されている文字をパーツとして利用したい場合は" "(ダブルクォーテーション)で括る。"をパーツとして利用する場合は' '(シングルクォーテーション)で括る。
e.g. バ = [ハ|<:1:3:'"']
フランス語のアクセント記号等のようにASCII文字の上に記号が付く、またサンスクリットのアヌスヴァーラのローマナイズや、サンスクリットの反舌音のように.等の記号ががASCII文字の下に付くような場合(チベット語のローマナイズルールは別文書参照)。
以上2つのルールは分数の表記をイメージすると理解できる。分母が分子の下になる。
従ってこのルールによる拡張は容易である。もしAの上にBが置かれるような文字があるとした場合、[B/A]とすればよい。
ドイツ語のウムラウト、およびフランス語のトレマに用いるべき、点が横に2つ並んだASCII文字がなく、もしこれをこのルールによって生成しようとすると非常に複雑になってしまう。従ってこれを表すために本規則では : を用いる。なお、この変則ルールの対象はASCII文字のみとする。
現在筆者の知る限りではASCII文字に縦2つの点、すなわち : 、が付いた文字を見たことはない。従ってこの変則ルールが本規則に問題を生じさせることはないと考えている。しかし筆者が寡聞にして知らなかっただけで、もし : をASCII文字に付する文字がある場合は、この変則ルールは削除する。この場合、ウムラウトとトレマの表記の簡潔化は、後述する「ヨーロッパ諸言語の略式表記」にゆだねる事とする。
フランス語などで用いられる2つの文字が左右に組み合わされるような場合。
2つの文字や記号が重ね書きされるような場合。
e.g. [o+"/"] = ø
ある文字の反転(回転)を行う場合は、以下の符号(演算子)を用いる。
[|a]
[-a]
[@a]
文字を右90°回転させたい場合の符号法則。なお、左90°回転は右90°回転をさらに中心点点対照させる。
この略式ルールはヨーロッパ諸言語の使用が明示された、あるいは文脈上ヨーロッパ諸言語であることが自明である場合の表記に限る。
この略式ルールは、ヨーロッパ諸言語の使用時、正式表記を行うことを何ら制限しない。
この略式ルールを他言語の表記のために拡張する事は認めない。 すなわち、ヨーロッパ諸言語は略式ルールでも、正式ルールでもどちらを用いても良いが、他の言語群は、正式ルールを用い、略式ルールの適用を一切認めない。
1:フランス語の ï, ü, ë (trema) ドイツ語のä, ö, ü (umlaut) は [a:], [e:], [i:], [o:], [u:]とする。
e.g. mädchen = m[a:]dchen
2:フランス語のaccent aiguに代表されるアクセント記号 á, é, í, ó, úは [a'], [e'], [I'], [o'], [u']とする。
e.g. tréma = tr[e']ma.
3:フランス語のaccent graveに代表されるアクセント記号à, è, ì, ò, ùは [a`], [e`], [I`], [o`], [u`]とする。
e.g. voilà = voil[a`].
4:フランス語のaccent circonflexeに代表されるアクセント記号â, ê, î, ô, ûは [a^], [e^], [i^], [o^], [u^]とする。
e.g. êtes = [e^]tes.
5:フランス語のç (cedille)は [cs] とする。
e.g. garçon = gar[cs]on.
6:ドイツ語の ß (eszett)は[ss]とする。
e.g. fluß = flu[ss].
7:スウェーデン語の å は[a@]とする。
8:スペイン語などの ã, õ, ñ は [a~], [o~], [n~] とする。
9:æ は [ae]とする。
10:œ は [oe] とする。
11:ø は [o/] とする。
このルールは和製漢字の辞典:凡例及び倉頡計畫に拠った所が大きい。
ここで使われる演算子は上述のものの他に次のものがある。
漢字を生成する場合の部品で、漢字とその他の文字の両方に適当な文字がある場合は、漢字を優先すること。
横棒は-を用いず、一(イチ)ISO-2022-JP:306C を使うこと。
これは漢字には漢字以外の部品の使用を制限するものではない。従って、漢字以外の文字などを用いれば1文字ですむ部品を、複雑な式によって無理に漢字から生成するべきではない。
これは他の演算子との併用時において、内包される要素を右辺に配置せざるを得ない場合にのみ使用される。後述「内包される位置を明らかにする必要がある内包」参照。
これも多くの場合他の演算子との併用時に入れ子内要素として用いられるであろう。
たとえばのように、土の右横に点が付いているような場合、[土|、]では、土偏に点との誤認が生まれ、また[土<、]では点が土のどこに内包されるかが不明になるため、これを明示的に区別する必要がある、そのため、こう言った場合は2重の演算子を用いる。
[土|<、]
これは、土の右横に点が内包されることを意味し、[土|、]や[土+、](土の中心に点が重ね書きされる)と明示的に区別できる。もし、土の左横に点が付く場合は[、|>土]となる。
ある漢字の一部のパーツを別のものに置き換える。
漢字(cha)中の要素1(e1)と要素2(e2)を入れ替える。
要素を組み合わせる際に、その要素の垂直位置を指定したい場合がある。たとえば前述の土に[、]が付く場合でも、点は2本の横画の間なのか、上の横画の上なのか、あるいは下の横画の下なのか、を明示する必要がある。
これを指定するために次の式を用いる。この式は当該演算子の直後に挿入される。
デフォルトで用意する式は次の3種類である。
ETMではETMの式に拠って生成された「文字」「部品」を変数に代入しその代わりに用いる事ができる。これにより複雑な生成式を1度書いておけば後は変数によって1文字で表すことができる。
標準で変数は∥を用いて表記し、=で値を代入する。
すなわち
[(己|己)/共]
と
[((∥=己)|∥)/共]
はどちらも巽を表す。
もし事前に変数を代入しておく場合は{}を用いる。
{∥=己}
[(∥|∥)/共] =巽
変数は同一文書内において、新たな値が代入されるまで継承される。
∥は'をつけて複数作ることができる。ただし最大4個までとする。
変数は新たな値が代入されるまで継承されるために、{∥=丶} [(∥|∥|∥|∥=∥)/∥/∥/∥]は[(丶|丶|丶|丶)/(丶|丶|丶|丶)/(丶|丶|丶|丶)/(丶|丶|丶|丶)]と同じである。
すなわち、はじめに丶が変数∥に代入され、次に(∥|∥|∥|∥=∥)で∥は(∥|∥|∥|∥)に上書きされている。(∥|∥|∥|∥=∥)の(∥|∥|∥|∥)まで∥は丶であるが、最後の=∥で∥は(∥|∥|∥|∥)に入れ替わったのである。
この部分は後述のe漢字 No.64309の例を参照。
前述の[((∥=己)|∥)/共]の通り、文字表記中に現れる変数代入式の代入部分∥=は文字生成において完全に無視される。∥を伴わない=は文字生成の部品としてその他の文字と同様に扱われる。∥=という記述は変数代入式以外には存在しないはずである、故にこの2文字の連続が現れた場合の代替表記は敢えて定義しない。
なお、∥を文字部品として用いる場合は""で括るか、変数を変更するか、あるいは∥自体を変数に代入すること。これの代替策として["|"|"|"]と表記することは非推奨である。
変数を表す文字∥は{ }内の定義により書き換える事ができる。変数を書き換える場合はV=によって定義する。
変数を変更した場合は、前の変数に代入されていた値は失われる。
空の変数を参照している場合はfatal errorとなる。
は
[冂<(((丶|丶|丶|丶=∥)/∥/∥/∥)丨|丨|丨|丨)]と書ける。
また、
{∥=丶} [冂<(((∥|∥|∥|∥=∥)/∥/∥/∥)丨|丨|丨|丨)]とも書ける。
式の簡略化から言えば前者を用いるべきであるが、続いてe漢字 No.64304を表記したい場合は変数が継承されているため、後者を用いたほうが良い。(もっともここでの例はあくまで例であり、丶を代入して用いる意味はない。たとえばしんにょうのように文字から抽出しなければならない部品にこそこの意味はある)
なお、e漢字 No.64309 の点の部分はフォントを見ると丶では無く一であるが、この例題に限って点とみなしている。あくまで例示のための解釈としてみて欲しい。
もし、ETMを解釈して文字を表示させるようなアプリケーションが作られるような場合、エラー処理は次のように行われる。
推奨と非推奨は可能な限りそれに従うよう求められる。しかし、それに従わないものを認めないことではない。
error部分は無視される。ただしfatal errorとは異なり、記述内容を破棄しなくてもよい。解釈可能ならば解釈してもかまわない。ただしプレーンな状態(ETMトランスクリプションそのものをテキストとして)を併記する事。
fatal errorを含む文字はその文字自体がfatal errorとなり、それを明示した上で解釈処理は破棄される。fatal errorでは無い部分を部分解釈してはならない。プレーンな状態を併記する必要はない。ただし、fatal errorである事を明示した上でプレーンな状態(テキスト)を表示してもよい。