符号点

符号点(ふごうてん)は、符号化文字集合内の、文字を割り当てうる個々の点。コードポイント (code point)。Unicodeでは符号位置(ふごういち)と訳す。文脈によっては単に(てん、point)ともいう。

符号点は文字を割り当て「うる」点であり、規格によっては、実際に文字を割り当てる以外に、エスケープなどの目的の文字以外の何かが割り当てられることもある。

符号点のバイト列化

符号空間は、1次元のこともあれば、多次元のこともある。その中の符号点は、座標に相当する整数列で特定される。Unicodeのように符号空間が1次元の場合は、長さ1の整数列、つまり、1つの整数となる。Unicodeの用語では「Unicodeスカラー値」と言う。

整数列は、文字符号化方式によりバイト列に変換される。最も単純なスキームでは整数列がそのままバイト列になるが、一般には、直に整数として見たものとは異なる値に変換されたり、長さも変わったりする。

群・面・区・点

符号点(この節では、以下、単にと呼ぶ)とは、整数列(バイト列ではない)を最後まで使って指定される点状の部分集合である。それに対し、最後から2番目の整数までを使って指定される、多数の点からなる状の部分集合をという。同様に、最後から3番目の整数までを使って指定される、多数の区からなる状の部分集合をといい、最後から4番目の整数までを使って指定される、多数の面からなる部分集合をという。

上位から並べなおすと、群・面・区・点であり、群は多数の面からなり、面は多数の区からなり、区は多数の点からなる。それぞれを特定する最後の整数を(つまり、最後から4番目の整数から順に)、群番号・面番号・区番号・点番号、あるいは単に、群・面・区・点という。このような、上位から群・面・区・点とする階層構造は以前のISO/IEC 10646のものである(群は2011年の改訂で廃止された)。

当然ながら、符号空間の次元が低く整数列が短い場合には、上位の整数は使わない。群・面は大規模文字セットに伴い使われるようになったものであるが、区・点はJIS X 0208など以前から使われていた。

特にJISなどで、区番号と点番号からなる2つの整数の組を区点番号、あるいは単に区点という。

表現

点(位置)について、ASCIIなどでは、特にこれといった表現方法はなく、オクテットの値を十六進法などで「'A'は4116である」といったように表現する。JIS X 0208などでは「x区y点」あるいは「x-y」(xとyは普通十進法)と表現する。JIS X 0213では「面」がその前に加わる。UnicodeやISO/IEC 10646では、"U+" の後にUnicodeスカラ値を十六進で続けて「U+3042」のようにして表す。

参考資料

Unicodeに関する用語の日本語表記は次にならった。“Unicode Terminology English - Japanese”. Unicode, inc. 2010年1月1日閲覧。

日本語用の
文字コード
JIS規格
符号化文字集合
文字符号化方式
文字一覧
JIS以外の公規格
メーカーの規格
符号化文字集合
文字符号化方式
日本語を含む
多言語文字集合
Unicode
ISO/IEC 10646
JIS X 0221
文字符号化方式
文字一覧
TRONコード
日本語以外用の
文字集合
初期の文字コード
ISO/IEC 8859
書誌用
  • ISO 5426
  • ISO 5426-2
  • ISO 5427
  • ISO 5428
  • ISO 6438
  • ISO 6861
  • ISO 6862
  • ISO 9036
  • ISO 10585
  • ISO 10586
  • ISO 10754
  • ISO 11822
  • ANSEL
  • MARC-8
国家標準
EUC
ISO/IEC 2022
  • ISO/IEC 2022 CN
  • ISO/IEC 2022 KR
  • CCCII
MacOS
コードページ
  • Macintosh Standard Roman Character Set
  • アラビア語
  • CentralEurRoman
  • EUC-CN
  • Big5
  • クロアチア語
  • キリル
  • デーヴァナーガリー
  • Dingbats
  • ペルシャ語
  • ギリシア語
  • グジャラート語
  • グルムキー
  • ヘブライ語
  • アイスランド語
  • EUC-KR
  • ルーマニア語
  • MacSymbol
  • TIS-620
  • トルコ語
  • ウクライナ語
DOS
コードページ
  • 437
  • 720
  • 737
  • 775
  • 850
  • 852
  • 855
  • 857
  • 858
  • 860
  • 861
  • 862
  • 863
  • 864
  • 865
  • 866
  • 869
  • KOI8
  • Kamenicky
  • Mazovia
  • MIK
  • Iran System
Windows
コードページ
EBCDIC
コードページ
  • 37
  • 293(英語版)
  • 300(英語版)
  • 310(英語版)
  • 351(英語版)
  • 353(英語版)
  • 355(英語版)
  • 357(英語版)
  • 358(英語版)
  • 359(英語版)
  • 360(英語版)
  • 819
  • 930(英語版)
  • 933(英語版)
  • 939(英語版)
  • 1364(英語版)
  • 1390(英語版)
  • 1399(英語版)
  • 8859(英語版)
その他標準
記号用
プラットフォーム
固有
  • ATASCII
  • CDC display code
  • DEC Radix-50
  • Fieldata
  • GSM 03.38
  • HP roman8
  • PETSCII
  • TI calculator character sets
  • ZX Spectrum character set
ソフトウェア
区分け
概念
関連トピック
カテゴリ カテゴリ