コンピュータで文字をあらわすためのコード。 文字の一つ一つに特定の数値が割り当てられている。いくつかの種類がある。
Unicode登場以前は各国ではバラバラの文字コードが使われていた。
符号化方式
JIS X 0208、0212、0213で定義された文字を扱う。
日本以外
KS | 韓国 |
GB | 中国 |
BIG5 | 台湾 |
CNS | 台湾 |
Alphabet Numerals and Katakana. ANK文字。 アルファベットと数字、カタカナのこと。全て半角文字。 JIS X 0201により8ビット(1バイト)のコードが割り当てられている。 漢字は2バイト文字のためANKには含まれない。
American Standard Code for Information Interchange. 情報交換用米国標準コード。
1963年、ASA(American Standard Association)(後のANSI)が定めた。 7ビットで0〜127の整数に対応付け。ただし31以下は特殊なコードのため文字としては認識できない。 多くの文字コードの英数字部分はASCIIがそのまま使われている。 8ビット対応時は最上位に0がつけられる(0+7ビット)。
各国ではASCIIをベースに文字を追加していった。 ISO 646はASCIIをもとに制定された。
10進 | 16進 | 文字 | 備考 |
32 | 0x20 | (半角スペース) | |
33 | 0x21 | ! | |
34 | 0x22 | " | |
35 | 0x23 | # | ※ |
36 | 0x24 | $ | ※ |
37 | 0x25 | % | |
38 | 0x26 | & | |
39 | 0x27 | ' | |
40 | 0x28 | ( | |
41 | 0x29 | ) | |
42 | 0x2a | * | |
43 | 0x2b | + | |
44 | 0x2c | (半角コンマ) | |
45 | 0x2d | - | |
46 | 0x2e | . | |
47 | 0x2f | / | |
48 | 0x30 | 0 | |
49 | 0x31 | 1 | |
50 | 0x32 | 2 | |
51 | 0x33 | 3 | |
52 | 0x34 | 4 | |
53 | 0x35 | 5 | |
54 | 0x36 | 6 | |
55 | 0x37 | 7 | |
56 | 0x38 | 8 | |
57 | 0x39 | 9 | |
58 | 0x3a | : | |
59 | 0x3b | ; | |
60 | 0x3c | < | |
61 | 0x3d | = | |
62 | 0x3e | > | |
63 | 0x3f | ? | |
64 | 0x40 | @ | ※ |
65 | 0x41 | A | |
66 | 0x42 | B | |
67 | 0x43 | C | |
68 | 0x44 | D | |
69 | 0x45 | E | |
70 | 0x46 | F | |
71 | 0x47 | G | |
72 | 0x48 | H | |
73 | 0x49 | I | |
74 | 0x4a | J | |
75 | 0x4b | K | |
76 | 0x4c | L | |
77 | 0x4d | M | |
78 | 0x4e | N | |
79 | 0x4f | O | |
80 | 0x50 | P | |
81 | 0x51 | Q | |
82 | 0x52 | R | |
83 | 0x53 | S | |
84 | 0x54 | T | |
85 | 0x55 | U | |
86 | 0x56 | V | |
87 | 0x57 | W | |
88 | 0x58 | X | |
89 | 0x59 | Y | |
90 | 0x5a | Z | |
91 | 0x5b | [ | ※ |
92 | 0x5c | ※(バックスラッシュ、日本では円記号(\)に変更) | |
93 | 0x5d | ] | ※ |
94 | 0x5e | ^ | ※ |
95 | 0x5f | _ | |
96 | 0x60 | ` | ※ |
97 | 0x61 | a | |
98 | 0x62 | b | |
99 | 0x63 | c | |
100 | 0x64 | d | |
101 | 0x65 | e | |
102 | 0x66 | f | |
103 | 0x67 | g | |
104 | 0x68 | h | |
105 | 0x69 | i | |
106 | 0x6a | j | |
107 | 0x6b | k | |
108 | 0x6c | l | |
109 | 0x6d | m | |
110 | 0x6e | n | |
111 | 0x6f | o | |
112 | 0x70 | p | |
113 | 0x71 | q | |
114 | 0x72 | r | |
115 | 0x73 | s | |
116 | 0x74 | t | |
117 | 0x75 | u | |
118 | 0x76 | v | |
119 | 0x77 | w | |
120 | 0x78 | x | |
121 | 0x79 | y | |
122 | 0x7a | z | |
123 | 0x7b | { | ※ |
124 | 0x7c | | | ※ |
125 | 0x7d | } | ※ |
126 | 0x7e | ~ | ※(チルダ) |
127 | 0x7f | (DEL) | 制御文字 |
Byte Order Mark. Unicodeで書かれた文書の冒頭に記載される符号。 文字エンコーディングの種類、バイト順(エンディアン)を指定するために使われる。
Extended Binary Coded Decimal Interchange Code.
IBMが1964年に策定した文字コード。8ビット。 BCDを拡張したもの。
メインフレームで使用された。
Extended Unix Code.拡張UNIXコードとも呼ばれる。 全角文字と半角カタカナ文字を2バイトまたは3バイトで表現する。名前のとおりUNIXで使われる。
ISO/IEC 646とも。ISOが1973年に策定した国際規格。 下記の2種類のコード表がある。
BCTは全世界共通の文字で構成する。 IRVは12文字で各国で独自の文字を割り当てることができる。
日本ではANK(JIS X 0201)がこれにあたる。
拡張ASCII。1987年に制定。 ASCIIを拡張し、キリル文字等をあらわせるようにしたもの。 各文字集合毎にエスケープシーケンスを使用して切り替えている。
ISO-8859-1 | Latin-1 |
ISO-8859-2 | Latin-2 |
ISO-8859-3 | Latin-3 |
ISO-8859-4 | Latin-4 |
ISO-8859-5 | Cyrillic |
ISO-8859-6 | Arabic |
ISO-8859-7 | Greek |
ISO-8859-8 | Hebrew |
ISO-8859-9 | Latin-5 |
ISO-8859-10 | Latin-6 |
ISO-8859-11 | タイ |
ISO-8859-12 | 予約 |
ISO-8859-13 | Latin-7 |
ISO-8859-14 | Latin-8 |
ISO-8859-15 | Latin-9 |
ISO-8859-16 | Latin-10 |
JISにより規格化された文字コード体系。 ひらがなや漢字を表現するため 2バイト(16ビット)を使用している。
JIS X 0201は英数字を扱う7ビットコード、 英数字とカナ文字を扱う8ビットコードがある。
1969年制定。1バイトコードを定める規格。 最新版は1997。ISO 646に対応する国内規格。
ラテン文字集合、片仮名集合の2つの符号化文字集合を定義する。 組み合わせまたは単独で使用する。
ラテン文字集合はASCII、ISO/IEC 646とほぼ同じだが、 バックスラッシュとチルダのみ変更されている。
片仮名集合は俗に「半角片仮名」と呼ばれる。
JIS基本漢字。1978年に制定(JIS78)。 アルファベット、数字、片仮名はJIS X 0201と重複する。
文字は区(1-94)、点(1-94)で表現する。 7区にキリル文字を含む。
フォントは石井明朝体だったが、1990年に平成明朝体に変更された。
1983年の変更に伴い各社は新JISに移行したが、 NECのPC-9801は旧JISを使い続けていた。
JIS補助漢字。 1990年に制定。JIS X 0208の拡張目的で制定された。
JIS拡張漢字。JIS X 0208に第3・4水準の漢字を追加。 2000年に制定。
Universal Character Set containing. ISO/IEC 10646で定義された文字。2種類ある。
UCS-2
2バイトのコード体系。
Unicodeと同じ体系。UCS-4の部分集合
UCS-4
4バイト(31ビット)のコード体系。
UTFはUCSの符号化方式。
世界中の文字を収録する文字コード規格。 Unicodeの文字には最大21bitsの数値が割り振りされており、 これをコードポイントと呼ぶ。 いくつかの符号化方式が存在する。
UCS Transformation Format. UCS-2やUCS-4で定義される文字集合を用いて記述された文字列を バイト列に変換する方式。
UTF-8
1文字を1-6バイトに変換する。
英数は1バイト、日本語は3バイトになる。
UTF-16
UCS-2の集合の中にUCS-4の一部の文字を埋め込む。
2バイト文字はそのまま2バイトで、4バイト文字は4バイトであらわす。
UTF-7
Unicodeをメールで使用するための方式。
UTF-32
全てのUCS-4文字を4バイトで表現する。
画面制御のための特殊な文字列。 先頭の円記号(\)+アルファベット、数字との組み合わせで構成される。
\a | 警報音 |
\b | バックスペース |
\n | 復帰改行 |
\r | 復帰 |
\f | 改ページ |
\t | 水平タブ |
\v | 垂直タブ |
\\ | \(文字) |
\0 | Null |
\ooo | 8進数の文字コードを持つ文字 |
\xhh | 16進数の文字コードを持つ文字 |
複数のバイトで構成されるデータを、どのような順番で 記録・伝送するかを示す順序のこと。
リトルエンディアン
最下位バイトから上位バイトに向けて順に記録・送信。
ビッグエンディアン
最上位バイトから下位バイトに向けて順に記録・送信。
1つの文字に対し、2つの文字コードを使って表される文字のこと。
マイクロソフト、日本のアスキー等により規定された2バイト文字コード。 JISコードでは英数字と漢字が混在する場合に切換コードが必要だったが、 シフトJISコードでは不要になった。
1バイト目で漢字かどうかわかり、英数字、カナ等の1バイト文字と混在させても判別できる文字コード体系。 WindowsやMac OSで使われる。