文字コード


index skip allword source recent(rd) (no rd)
dicfile-mtime:2023/12/04(Mon) 20:03:20
dicfile-size:7882byte


情報 規格 文字 > 文字コード

文字コード

(もじこーど)

コンピュータで文字をあらわすためのコード。 文字の一つ一つに特定の数値が割り当てられている。いくつかの種類がある。

Unicode登場以前は各国ではバラバラの文字コードが使われていた。

符号化方式
JIS X 0208、0212、0213で定義された文字を扱う。

日本以外

KS韓国
GB中国
BIG5台湾
CNS 台湾

A

Alphabet Numerals and Katakana. ANK文字。 アルファベット字、カタカナのこと。全て半角文字。 JIS X 0201により8ビット(1バイト)のコードが割り当てられている。 漢字は2バイト文字のためANKには含まれない。

American Standard Code for Information Interchange. 情報交換用米国標準コード。

1963年、ASA(American Standard Association)(後のANSI)が定めた。 7ビットで0〜127の整数に対応付け。ただし31以下は特殊なコードのため文字としては認識できない。 多くの文字コードの英数字部分はASCIIがそのまま使われている。 8ビット対応時は最上位に0がつけられる(0+7ビット)。

各国ではASCIIをベースに文字を追加していった。 ISO 646はASCIIをもとに制定された。

10進16進文字備考
320x20 (半角スペース)
330x21!
340x22"
350x23#
360x24$
370x25%
380x26&
390x27'
400x28(
410x29)
420x2a*
430x2b+
440x2c (半角コンマ)
450x2d-
460x2e.
470x2f/
480x300
490x311
500x322
510x333
520x344
530x355
540x366
550x377
560x388
570x399
580x3a:
590x3b;
600x3c<
610x3d=
620x3e>
630x3f?
640x40@
650x41A
660x42B
670x43C
680x44D
690x45E
700x46F
710x47G
720x48H
730x49I
740x4aJ
750x4bK
760x4cL
770x4dM
780x4eN
790x4fO
800x50P
810x51Q
820x52R
830x53S
840x54T
850x55U
860x56V
870x57W
880x58X
890x59Y
900x5aZ
910x5b[
920x5c ※(バックスラッシュ、日本では円記号(\)に変更)
930x5d]
940x5e^
950x5f_
960x60`
970x61a
980x62b
990x63c
1000x64d
1010x65e
1020x66f
1030x67g
1040x68h
1050x69i
1060x6aj
1070x6bk
1080x6cl
1090x6dm
1100x6en
1110x6fo
1120x70p
1130x71q
1140x72r
1150x73s
1160x74t
1170x75u
1180x76v
1190x77w
1200x78x
1210x79y
1220x7az
1230x7b{
1240x7c|
1250x7d}
1260x7e~※(チルダ)
1270x7f(DEL)制御文字

Byte Order Mark. Unicodeで書かれた文書の冒頭に記載される符号。 文字エンコーディングの種類、バイト順(エンディアン)を指定するために使われる。

E

Extended Binary Coded Decimal Interchange Code.

IBMが1964年に策定した文字コード。8ビット。 BCDを拡張したもの。

メインフレームで使用された。

Extended Unix Code.拡張UNIXコードとも呼ばれる。 全角文字と半角カタカナ文字を2バイトまたは3バイトで表現する。名前のとおりUNIXで使われる。

I

ISO/IEC 646とも。ISOが1973年に策定した国際規格。 下記の2種類のコード表がある。

BCTは全世界共通の文字で構成する。 IRVは12文字で各国で独自の文字を割り当てることができる。

日本ではANK(JIS X 0201)がこれにあたる。

拡張ASCII。1987年に制定。 ASCIIを拡張し、キリル文字等をあらわせるようにしたもの。 各文字集合毎にエスケープシーケンスを使用して切り替えている。

ISO-8859-1Latin-1
ISO-8859-2Latin-2
ISO-8859-3Latin-3
ISO-8859-4Latin-4
ISO-8859-5Cyrillic
ISO-8859-6Arabic
ISO-8859-7Greek
ISO-8859-8Hebrew
ISO-8859-9Latin-5
ISO-8859-10Latin-6
ISO-8859-11タイ
ISO-8859-12予約
ISO-8859-13Latin-7
ISO-8859-14Latin-8
ISO-8859-15Latin-9
ISO-8859-16Latin-10

J

JISにより規格化された文字コード体系。 ひらがなや漢字を表現するため 2バイト(16ビット)を使用している。

JIS X 0201は英数字を扱う7ビットコード、 英数字とカナ文字を扱う8ビットコードがある。

1969年制定。1バイトコードを定める規格。 最新版は1997。ISO 646に対応する国内規格。

ラテン文字集合、片仮名集合の2つの符号化文字集合を定義する。 組み合わせまたは単独で使用する。

ラテン文字集合はASCIIISO/IEC 646とほぼ同じだが、 バックスラッシュとチルダのみ変更されている。

片仮名集合は俗に「半角片仮名」と呼ばれる。

JIS基本漢字。1978年に制定(JIS78)。 アルファベット、数字、片仮名はJIS X 0201と重複する。

文字は区(1-94)、点(1-94)で表現する。 7区にキリル文字を含む。

フォントは石井明朝体だったが、1990年に平成明朝体に変更された。

1983年の変更に伴い各社は新JISに移行したが、 NECのPC-9801は旧JISを使い続けていた。

JIS補助漢字。 1990年に制定。JIS X 0208の拡張目的で制定された。

JIS拡張漢字。JIS X 0208に第3・4水準の漢字を追加。 2000年に制定。

U

Universal Character Set containing. ISO/IEC 10646で定義された文字。2種類ある。

UCS-2
2バイトのコード体系。 Unicodeと同じ体系。UCS-4の部分集合

UCS-4
4バイト(31ビット)のコード体系。

UTFはUCSの符号化方式。

世界中の文字を収録する文字コード規格。 Unicodeの文字には最大21bitsの数値が割り振りされており、 これをコードポイントと呼ぶ。 いくつかの符号化方式が存在する。

UCS Transformation Format. UCS-2やUCS-4で定義される文字集合を用いて記述された文字列を バイト列に変換する方式。

UTF-8
1文字を1-6バイトに変換する。 英数は1バイト、日本語は3バイトになる。

UTF-16
UCS-2の集合の中にUCS-4の一部の文字を埋め込む。 2バイト文字はそのまま2バイトで、4バイト文字は4バイトであらわす。

UTF-7
Unicodeをメールで使用するための方式。

UTF-32
全てのUCS-4文字を4バイトで表現する。

(えすけーぷしーけんす)

画面制御のための特殊な文字列。 先頭の円記号(\)+アルファベット字との組み合わせで構成される。

\a警報音
\bバックスペース
\n復帰改行
\r復帰
\f改ページ
\t水平タブ
\v垂直タブ
\\\(文字)
\0Null
\ooo8進数の文字コードを持つ文字
\xhh16進数の文字コードを持つ文字

(えんでぃあん)

複数のバイトで構成されるデータを、どのような順番で 記録・伝送するかを示す順序のこと。

リトルエンディアン
最下位バイトから上位バイトに向けて順に記録・送信。

ビッグエンディアン
最上位バイトから下位バイトに向けて順に記録・送信。

メモリ上のエンディアンの取扱はCPUにより異なる。

(さろげーとぺあ)

1つの文字に対し、2つの文字コードを使って表される文字のこと。

(しふとじすこーど)

マイクロソフト、日本のアスキー等により規定された2バイト文字コード。 JISコードでは英数字と漢字が混在する場合に切換コードが必要だったが、 シフトJISコードでは不要になった。

1バイト目で漢字かどうかわかり、英数字、カナ等の1バイト文字と混在させても判別できる文字コード体系。 WindowsやMac OSで使われる。


Generated by ldiary3.00beta t2h3_method 2008/09/28
Powerd by Ruby Ver 1.8.1