前のページ|次のページ

よく用いられるエンコーディング方法

エンコーディングは、エンコーディング方法をコーディングされた文字セットに適用した結果です。
エンコーディング方法 エンコードされた文字体系を生成するために、制定された業界ルールをコード化された文字に適用すること。そのようなルールでは、特定の文字の数値表現およびエンコーディングでのそのコード位置を保存するために必要とされるビット数が規定されます。ISO 2022とUTF-8は、エンコーディング方法の一例です。詳細については、各国語サポートエンコーディング関連の標準組織を参照してください。
エンコーディング方法は、数値表現を文字のセットに割り当てる一連のルールです。これらのルールによって、エンコーディングのサイズ(文字の数値表現の保存に使用されるビット数)と文字が表示されるエンコーディングの範囲が決まります。
次に、一般的なエンコーディング方法の一覧を示します。
ASCII (American Standard Code for Information Interchange、ASCIIコード、情報交換用米国標準コード)
128文字の組み合わせを提供する米国の7ビットエンコーディングです。このエンコーディングには、大文字と小文字の英語、アメリカ英語の句読点、基数が10の数値、少数のコントロール文字が含まれています。この128文字のセットは、他のほとんどのエンコーディングで共通です。ASCIIはパーソナルコンピュータで使用されます。
EBCDIC (Extended Binary Coded Decimal Interchange Code)ファミリ
256文字の組み合わせを提供する8ビットエンコーディングです。複数のEBCDICベースのエンコーディングが存在します。EBCDICは、IBMメインフレームとほとんどのIBMミッドレンジコンピュータで使用されています。EBCDICでは、ISO 646規則に従って、EBCDICエンコーディングと7ビット(および8ビット)ASCIIベースのエンコーディングの間の変換を行います。95 EBCDICグラフィカル文字には、ほとんどのEBCDIC 1バイトコードページにおいて同じコード位置を占める82のインバリアント文字(空白を含む)が含まれます。また、ほとんどのEBCDIC 1バイトコードページにおいて異なるコード位置を占める13のバリアントグラフィカル文字も含まれます。バリアント文字の詳細については、EBCDICエンコーディングの制約を参照してください。
MBCS (Multi-Byte Character Set)エンコーディングも存在します。
ISO (国際標準化機構) 646ファミリ
128文字の組み合わせを提供する国際標準の7ビットエンコーディングです。ISO 646エンコーディングファミリは、各国バリアントとして12コードポイントを使用する点を除いてASCIIに似ています。12の各国バリアントは、特定の言語で必要とされる特殊文字を表します。
ISO 8859ファミリとWindowsファミリ
すべてのASCIIコードポイントをサポートし、12コードポイントを追加して256文字の組み合わせを提供するASCIIの8ビット拡張です。公式にはISO-8859-1という名前を持つLatin1は、ISO 8859エンコーディングファミリの中で最も頻繁に使用されるメンバです。Latin1には、ASCII文字に加えて、アクセント記号付き文字、西ヨーロッパの言語で必要とされる他の文字、およびいくつかの特殊文字が含まれています。HTTPおよびHTMLプロトコルは、Unicodeに基づいています。
その他のエンコーディング
ISO 8859ファミリには、他の言語用に設計されたメンバが他にもあります。次の表に、ISOによって承認された他のエンコーディングの説明を示します。
ISOによって承認されたその他のエンコーディング
ISO標準
エンコーディング名
説明
ISO 8859-1
ラテン諸語1
米国および西ヨーロッパの言語
ISO 8859-2
ラテン諸語2
中央および東ヨーロッパの言語
ISO 8859-3
ラテン諸語3
南ヨーロッパの言語、マルタ語、エスペラント語
ISO 8859-4
バルト諸語
北ヨーロッパの言語
ISO 8859-5
キリル語
スラブ系言語
ISO 8859-6
アラビア語
アラビア語
ISO 8859-7
ギリシャ語
現代ギリシャ語
ISO 8859-8
ヘブライ語
ヘブライ語およびイディッシュ語
ISO 8859-9
トルコ語
トルコ語
ISO 8859-10
ラテン諸語6
北欧(イヌイット語、サーミ語、アイスランド語)
ISO 8859-11
ラテン/タイ語
タイ語
ISO 8859-13
ラテン諸語7
バルト語
ISO 8859-14
ラテン諸語8
ケルト語
ISO 8859-15
ラテン諸語9
西ヨーロッパの言語
ISO-8859-16
ラテン諸語10
南東ヨーロッパの言語
Unicodeは一般的でよく使用される文字セットです。
Unicode
最大で110,116文字の組み合わせを提供します。基本的にUnicodeは、世界中のすべての言語に対応できます。Unicodeはコーディングされた文字セットです。Unicode文字セットには次のエンコーディングがあります。
UTF-8
ラテン系言語、ギリシャ語、キリル語、アラビア語、ヘブライ語を含むMBCSエンコーディングです。日本語、中国語、韓国語などの東アジア言語も含まれます。UTF-8の文字には、1バイトから4バイトまでのさまざまな幅があります。UTF-8では、1から128のコード位置にASCII文字を残すことによって、ASCIIとの互換性を維持しています。
UTF-16
現代のすべての記述体系に含まれる共通文字のほとんどを包含する16ビット形式です。文字のほとんどは2バイトで均一に表記されます。ただし、4バイトを必要とする追加文字には、 代用符号スペースと呼ばれる拡張スペースがあります。
UTF-32
各文字が4バイトを占める32ビット形式です。
さらに、東アジア言語用に多数のエンコーディング標準が開発されています。その一部を次の表に示します。
ISOによって承認された一部の東アジア言語のエンコーディング
標準
エンコーディング名
説明
GB 2312-80
簡体字中国語
中華人民共和国
CNS 11643
繁体字中国語
台湾
Big-5
繁体字中国語
台湾
KS C 5601
韓国産業標準
韓国
JIS
日本工業規格
日本
Shift-JIS
日本工業規格マルチバイトエンコーディング
日本
さまざまな言語とロケールをサポートするEBCDICおよびWindowsの標準には、他のエンコーディングがあります。
前のページ|次のページ|ページの先頭へ