上一頁|下一頁

通用編碼方法

編碼方法是根據各個電腦硬體製造商和標準組織所開發的標準所產生。如需詳細資訊,請參閱 NLS 編碼的標準組織。以下列出通用編碼方法:
ASCII (美國資訊交換標準碼)
是適用於美國、可提供 128 個字元組合的 7 位元編碼。此編碼包含大寫和小寫英文字元、美式英文標點符號、基底 10 數字,以及一些控制字元。 這組 128 個字元通用於大部分其他編碼。ASCII 是供個人電腦使用。
EBCDIC (延伸二進位編碼十進位交換碼) 系列
是提供 256 個字元組合的 8 位元編碼。EBCDIC 型編碼有很多種。EBCDIC 用於 IBM 大型主機和大部分的 IBM 中型電腦。EBCDIC 遵循 ISO 646 慣例,以利 EBCDIC 編碼與 7 位元 (和 8 位元) ASCII 型編碼之間的轉譯。95 EBCDIC 圖形字元包含 82 個不變字元 (包含空格) (其佔用大部分 EBCDIC 單位元組字碼頁中的相同代碼位置),並同時包含 13 個可變圖形字元 (其佔用大部分 EBCDIC 單位元組字碼頁中的變動代碼位置)。如需可變字元的詳細資料,請參閱 EBCDIC 編碼之間的字碼指標差異
此外也有 MBCS EBCDIC 編碼。
ISO (國際標準化組織) 646 系列
是本身為國際標準並提供 128 個字元組合的 7 位元編碼。 ISO 646 編碼系列與 ASCII 類似,差異在於它有 12 個字碼指標用於國家變異。12 個國家變異可表示特定語言所需的特定字元。
ISO 8859 系列和 Windows 系列
是 ASCII 的 8 位元延伸,支援所有 ASCII 字碼指標,並再增加 12 個字碼指標,以提供 256 個字元組合。Latin1 的正式名稱是 ISO-8859-1,為 ISO 8859 編碼系列中最常使用的成員。除了 ASCII 字元之外,Latin1 還包含重音字元、西歐語言所需的其他字母,以及部分特殊字元。HTTP 和 HTML 通訊協定是以 Unicode 為基礎。
Unicode
最多提供 110,116 個字元組合。Unicode 基本上可以容納全球所有的語言。
Unicode 編碼有三種形式:
UTF-8
是 MBCS 編碼,包含拉丁字語言、希臘文、斯拉夫文、阿拉伯文和希伯來文,以及東亞語言 (如日文、中文和韓文)。UTF-8 字元的寬度可變動 (範圍為 1 到 4 個位元組)。UTF-8 透過保留字碼位置 1 到 128 的 ASCII 字元,來維護 ASCII 相容性。
UTF-16
是 16 位元形式,包含現代所有書寫系統中最通用的所有字元。 雖然延伸的空間 (稱為約束替代空間) 可容納其他需要 4 個位元組的字元,但是大部分字元都是以兩個位元組表示。
UTF-32
是每個字元都佔用 4 個位元組的 32 位元形式。
其他編碼
ISO 8859 系列有其他針對其他語言設計的成員。下表說明 ISO 所核准的其他編碼。
ISO 所核准的其他編碼
ISO 標準
編碼名稱
描述
ISO 8859-1
Latin 1
美國和西歐
ISO 8859-2
Latin 2
中歐和東歐
ISO 8859-3
Latin 3
南歐、馬爾他和世界語
ISO 8859-4
Baltic
北歐
ISO 8859-5
Cyrillic
古斯拉夫文
ISO 8859-6
Arabic
Arabic
ISO 8859-7
Greek
現代希臘文
ISO 8859-8
Hebrew
希伯來文和意第緒文
ISO 8859-9
Turkish
Turkish
ISO 8859-10
Latin 6
日耳曼文 (因紐特文、沙米文、冰島文)
ISO 8859-11
Latin/Thai
Thai
ISO 8859-13
Latin 7
波羅的語族
ISO 8859-14
Latin 8
塞爾特文
ISO 8859-15
Latin 9
西歐和阿爾巴尼亞文
ISO -8859-16
Latin 10
東南歐語系
此外,也已經為東亞語言開發多種編碼標準,而下表列出其中一部分。
ISO 所核准的部分東亞語言編碼
標準
編碼名稱
描述
GB 2312-80
簡體中文
中華人民共和國
CNS 11643
繁體中文
台灣
Big-5
繁體中文
台灣
KS C 5601
韓文國家標準
韓文
JIS
日文業界標準
日本
shift-jis
日文業界標準多位元組編碼
日本
EBCDIC 和 Windows 標準中有其他支援不同語言和地區設定的編碼。
上一頁|下一頁|頁面頂端