文字コード

1963年、ASA(American Standard Association)(後のANSI)が定めた。 7ビットで0～127の整数に対応付け。ただし31以下は特殊なコードのため文字としては認識できない。多くの文字コードの英数字部分はASCIIがそのまま使われている。 8ビット対応時は最上位に0がつけられる(0+7ビット)。

各国ではASCIIをベースに文字を追加していった。 ISO 646はASCIIをもとに制定された。

10進0～31は制御文字、記載は省略。
44(0x2c)は半角コンマ、このページのシステム上表記不可。

※はISO IEC/646により割り当ての変更が認められている文字。
92はバックスラッシュだが日本では円記号(\)に変更されている。
126はチルダ(~)だが日本ではオーバーラインに変更されている(Windowsではチルダで表示される)。

10進 16進文字備考

32 0x20 (半角スペース)

33 0x21 !

34 0x22 "

35 0x23 # ※

36 0x24 $ ※

37 0x25 %

38 0x26 &

39 0x27 '

40 0x28 (

41 0x29 )

42 0x2a *

43 0x2b +

44 0x2c (半角コンマ)

45 0x2d -

46 0x2e .

47 0x2f /

48 0x30 0

49 0x31 1

50 0x32 2

51 0x33 3

52 0x34 4

53 0x35 5

54 0x36 6

55 0x37 7

56 0x38 8

57 0x39 9

58 0x3a :

59 0x3b ;

60 0x3c <

61 0x3d =

62 0x3e >

63 0x3f ?

64 0x40 @ ※

65 0x41 A

66 0x42 B

67 0x43 C

68 0x44 D

69 0x45 E

70 0x46 F

71 0x47 G

72 0x48 H

73 0x49 I

74 0x4a J

75 0x4b K

76 0x4c L

77 0x4d M

78 0x4e N

79 0x4f O

80 0x50 P

81 0x51 Q

82 0x52 R

83 0x53 S

84 0x54 T

85 0x55 U

86 0x56 V

87 0x57 W

88 0x58 X

89 0x59 Y

90 0x5a Z

91 0x5b [ ※

92 0x5c ※(バックスラッシュ、日本では円記号(\)に変更)

93 0x5d ] ※

94 0x5e ^ ※

95 0x5f _

96 0x60 ` ※

97 0x61 a

98 0x62 b

99 0x63 c

100 0x64 d

101 0x65 e

102 0x66 f

103 0x67 g

104 0x68 h

105 0x69 i

106 0x6a j

107 0x6b k

108 0x6c l

109 0x6d m

110 0x6e n

111 0x6f o

112 0x70 p

113 0x71 q

114 0x72 r

115 0x73 s

116 0x74 t

117 0x75 u

118 0x76 v

119 0x77 w

120 0x78 x

121 0x79 y

122 0x7a z

123 0x7b { ※

124 0x7c | ※

125 0x7d } ※

126 0x7e ~ ※(チルダ)

127 0x7f (DEL) 制御文字

BOM

wikip

Top

Byte Order Mark. Unicodeで書かれた文書の冒頭に記載される符号。文字エンコーディングの種類、バイト順(エンディアン)を指定するために使われる。

BOM付のUTF-8は先頭の3バイトがBOMとなる。0xEF 0XBB 0xBF。

一部のアプリケーションはBOMがついていないと文字コードを判別できない場合がある。

E

EBCDIC

wikip

Top

Extended Binary Coded Decimal Interchange Code.

IBMが1964年に策定した文字コード。8ビット。 BCDを拡張したもの。

メインフレームで使用された。

DBCS
EBCDIK

EUC

wikip

Top

Extended Unix Code.拡張UNIXコードとも呼ばれる。全角文字と半角カタカナ文字を2バイトまたは3バイトで表現する。名前のとおりUNIXで使われる。

EUC-JP 漢字を含む日本語EUCコード

I

ISO 646

wikip

Top

ISO/IEC 646とも。ISOが1973年に策定した国際規格。下記の2種類のコード表がある。

BCT(Basic Code Table)
IRV(International Reference Version)

BCTは全世界共通の文字で構成する。 IRVは12文字で各国で独自の文字を割り当てることができる。

日本ではANK(JIS X 0201)がこれにあたる。

ISO 8859

wikip

Top

拡張ASCII。1987年に制定。 ASCIIを拡張し、キリル文字等をあらわせるようにしたもの。各文字集合毎にエスケープシーケンスを使用して切り替えている。

ISO-8859-1 Latin-1

ISO-8859-2 Latin-2

ISO-8859-3 Latin-3

ISO-8859-4 Latin-4

ISO-8859-5 Cyrillic

ISO-8859-6 Arabic

ISO-8859-7 Greek

ISO-8859-8 Hebrew

ISO-8859-9 Latin-5

ISO-8859-10 Latin-6

ISO-8859-11 タイ

ISO-8859-12 予約

ISO-8859-13 Latin-7

ISO-8859-14 Latin-8

ISO-8859-15 Latin-9

ISO-8859-16 Latin-10

J

JISコード

wikip

Top

JISにより規格化された文字コード体系。ひらがなや漢字を表現するため 2バイト(16ビット)を使用している。

JIS X 0201は英数字を扱う7ビットコード、英数字とカナ文字を扱う8ビットコードがある。

JIS X 0201 (JIS C 6220)
JIS X 0208 (JIS C 6226)
JIS X 0212
JIS X 0213

JIS X 0201

wikip

Top

1969年制定。1バイトコードを定める規格。最新版は1997。ISO 646に対応する国内規格。

ラテン文字集合、片仮名集合の2つの符号化文字集合を定義する。組み合わせまたは単独で使用する。

ラテン文字集合はASCII、ISO/IEC 646とほぼ同じだが、バックスラッシュとチルダのみ変更されている。

片仮名集合は俗に「半角片仮名」と呼ばれる。

JIS X 0208

wikip

Top

JIS基本漢字。1978年に制定(JIS78)。アルファベット、数字、片仮名はJIS X 0201と重複する。

文字は区(1-94)、点(1-94)で表現する。 7区にキリル文字を含む。

フォントは石井明朝体だったが、1990年に平成明朝体に変更された。

1983年の変更に伴い各社は新JISに移行したが、 NECのPC-9801は旧JISを使い続けていた。

1978
1983 (JIS83) 新JISとも、特殊文字、罫線文字追加等、コードポイント入替
1990 (JIS90) 一部の文字の字形と字体変更
1997 (JIS97) 一部の文字の字形と字体変更
2012

JIS X 0212

wikip

Top

JIS補助漢字。 1990年に制定。JIS X 0208の拡張目的で制定された。

JIS X 0213

wikip

Top

JIS拡張漢字。JIS X 0208に第3・4水準の漢字を追加。 2000年に制定。

2004(JIS2004)
2012

U

UCS

wikip

Top

Universal Character Set containing. ISO/IEC 10646で定義された文字。2種類ある。

UCS-2
2バイトのコード体系。 Unicodeと同じ体系。UCS-4の部分集合

UCS-4
4バイト(31ビット)のコード体系。

UTFはUCSの符号化方式。

Unicode

wikip

Top

世界中の文字を収録する文字コード規格。 Unicodeの文字には最大21bitsの数値が割り振りされており、これをコードポイントと呼ぶ。いくつかの符号化方式が存在する。

UTF

wikip

Top

UCS Transformation Format. UCS-2やUCS-4で定義される文字集合を用いて記述された文字列をバイト列に変換する方式。

UTF-8
1文字を1-6バイトに変換する。英数は1バイト、日本語は3バイトになる。

UTF-16
UCS-2の集合の中にUCS-4の一部の文字を埋め込む。 2バイト文字はそのまま2バイトで、4バイト文字は4バイトであらわす。

UTF-7
Unicodeをメールで使用するための方式。

UTF-32
全てのUCS-4文字を4バイトで表現する。

あ

エスケープシーケンス

(えすけーぷしーけんす)

wikip

Top

画面制御のための特殊な文字列。先頭の円記号(\)+アルファベット、数字との組み合わせで構成される。

\a 警報音

\b バックスペース

\n 復帰改行

\r 復帰

\f 改ページ

\t 水平タブ

\v 垂直タブ

\\ \(文字)

\0 Null

\ooo 8進数の文字コードを持つ文字

\xhh 16進数の文字コードを持つ文字

エンディアン

(えんでぃあん)

wikip

Top

複数のバイトで構成されるデータを、どのような順番で記録・伝送するかを示す順序のこと。

リトルエンディアン
最下位バイトから上位バイトに向けて順に記録・送信。

ビッグエンディアン
最上位バイトから下位バイトに向けて順に記録・送信。

メモリ上のエンディアンの取扱はCPUにより異なる。

さ

サロゲートペア

(さろげーとぺあ)

wikip

Top

1つの文字に対し、2つの文字コードを使って表される文字のこと。

シフトJISコード

(しふとじすこーど)

wikip

Top

マイクロソフト、日本のアスキー等により規定された2バイト文字コード。 JISコードでは英数字と漢字が混在する場合に切換コードが必要だったが、シフトJISコードでは不要になった。

1バイト目で漢字かどうかわかり、英数字、カナ等の1バイト文字と混在させても判別できる文字コード体系。 WindowsやMac OSで使われる。

Generated by ldiary3.00beta t2h3_method 2008/09/28

Powerd by Ruby Ver 1.8.1

10進	16進	文字	備考
32	0x20		(半角スペース)
33	0x21	!
34	0x22	"
35	0x23	#	※
36	0x24	$	※
37	0x25	%
38	0x26	&
39	0x27	'
40	0x28	(
41	0x29	)
42	0x2a	*
43	0x2b	+
44	0x2c		(半角コンマ)
45	0x2d	-
46	0x2e	.
47	0x2f	/
48	0x30	0
49	0x31	1
50	0x32	2
51	0x33	3
52	0x34	4
53	0x35	5
54	0x36	6
55	0x37	7
56	0x38	8
57	0x39	9
58	0x3a	:
59	0x3b	;
60	0x3c	<
61	0x3d	=
62	0x3e	>
63	0x3f	?
64	0x40	@	※
65	0x41	A
66	0x42	B
67	0x43	C
68	0x44	D
69	0x45	E
70	0x46	F
71	0x47	G
72	0x48	H
73	0x49	I
74	0x4a	J
75	0x4b	K
76	0x4c	L
77	0x4d	M
78	0x4e	N
79	0x4f	O
80	0x50	P
81	0x51	Q
82	0x52	R
83	0x53	S
84	0x54	T
85	0x55	U
86	0x56	V
87	0x57	W
88	0x58	X
89	0x59	Y
90	0x5a	Z
91	0x5b	[	※
92	0x5c		※(バックスラッシュ、日本では円記号(\)に変更)
93	0x5d	]	※
94	0x5e	^	※
95	0x5f	_
96	0x60	`	※
97	0x61	a
98	0x62	b
99	0x63	c
100	0x64	d
101	0x65	e
102	0x66	f
103	0x67	g
104	0x68	h
105	0x69	i
106	0x6a	j
107	0x6b	k
108	0x6c	l
109	0x6d	m
110	0x6e	n
111	0x6f	o
112	0x70	p
113	0x71	q
114	0x72	r
115	0x73	s
116	0x74	t
117	0x75	u
118	0x76	v
119	0x77	w
120	0x78	x
121	0x79	y
122	0x7a	z
123	0x7b	{	※
124	0x7c	\|	※
125	0x7d	}	※
126	0x7e	~	※(チルダ)
127	0x7f	(DEL)	制御文字

ISO-8859-1	Latin-1
ISO-8859-2	Latin-2
ISO-8859-3	Latin-3
ISO-8859-4	Latin-4
ISO-8859-5	Cyrillic
ISO-8859-6	Arabic
ISO-8859-7	Greek
ISO-8859-8	Hebrew
ISO-8859-9	Latin-5
ISO-8859-10	Latin-6
ISO-8859-11	タイ
ISO-8859-12	予約
ISO-8859-13	Latin-7
ISO-8859-14	Latin-8
ISO-8859-15	Latin-9
ISO-8859-16	Latin-10

\a	警報音
\b	バックスペース
\n	復帰改行
\r	復帰
\f	改ページ
\t	水平タブ
\v	垂直タブ
\\	\(文字)
\0	Null
\ooo	8進数の文字コードを持つ文字
\xhh	16進数の文字コードを持つ文字