Учебники

HTML — кодировки символов

Кодировка символов — это метод преобразования байтов в символы. Чтобы правильно проверить или отобразить документ HTML, программа должна выбрать правильную кодировку символов.

Наиболее распространенным набором символов или кодировкой символов, используемой на компьютерах, является ASCII — американский стандартный код для обмена информацией , и это, вероятно, наиболее широко используемый набор символов для электронного кодирования текста.

Кодировка ASCII поддерживает только прописные и строчные буквы латинского алфавита, цифры 0-9 и некоторые дополнительные символы, которые в сумме составляют 128 символов. Вы можете взглянуть на полный набор печатных символов ASCII

Тем не менее, во многих языках используются либо латинские символы с акцентом, либо совершенно разные алфавиты. ASCII не обращается к этим символам; поэтому вам нужно узнать о кодировках символов, если вы хотите использовать любые символы, не входящие в ASCII.

Международная организация стандартов создала ряд наборов символов для работы с различными национальными символами. Для документов на английском и большинстве других западноевропейских языков используется широко поддерживаемая кодировка ISO-8859-1.

Вот список Наборов символов, используемых во всем мире вместе с их описанием.

Sr.No Набор символов и описание
1

ISO-8859-1

Латинский алфавит часть 1

Покрытие Северной Америки, Западной Европы, Латинской Америки, Карибского бассейна, Канады, Африки

2

ISO-8859-2

Латинский алфавит часть 2

Покрытие Восточной Европы

3

ISO-8859-3

Латинский алфавит часть 3

Покрытие SE Europe, эсперанто, разные другие

4

ISO-8859-4

Латинский алфавит часть 4

Покрытие Скандинавия / Прибалтика (и другие, не входящие в ISO-8859-1)

5

ISO-8859-5

Латиница / кириллица часть 5

6

ISO-8859-6

Латиница / арабский алфавит часть 6

7

ISO-8859-7

Латинский / греческий алфавит часть 7

8

ISO-8859-8

Латиница / иврит алфавит часть 8

9

ISO-8859-9

Латинский 5 алфавит часть 9

То же, что ISO-8859-1 за исключением того, что турецкие символы заменяют исландские

10

ISO-8859-10

Латинская 6 Латинская 6 Лапландская, скандинавская и эскимосская

11

ISO-8859-15

То же, что ISO-8859-1, но с добавлением большего количества символов

12

ISO-2022-JP

Латиница / японский алфавит часть 1

13

ISO-2022-JP-2

Латинский / японский алфавит часть 2

14

ISO-2022-KR

Латинский / корейский алфавит часть 1

ISO-8859-1

Латинский алфавит часть 1

Покрытие Северной Америки, Западной Европы, Латинской Америки, Карибского бассейна, Канады, Африки

ISO-8859-2

Латинский алфавит часть 2

Покрытие Восточной Европы

ISO-8859-3

Латинский алфавит часть 3

Покрытие SE Europe, эсперанто, разные другие

ISO-8859-4

Латинский алфавит часть 4

Покрытие Скандинавия / Прибалтика (и другие, не входящие в ISO-8859-1)

ISO-8859-5

Латиница / кириллица часть 5

ISO-8859-6

Латиница / арабский алфавит часть 6

ISO-8859-7

Латинский / греческий алфавит часть 7

ISO-8859-8

Латиница / иврит алфавит часть 8

ISO-8859-9

Латинский 5 алфавит часть 9

То же, что ISO-8859-1 за исключением того, что турецкие символы заменяют исландские

ISO-8859-10

Латинская 6 Латинская 6 Лапландская, скандинавская и эскимосская

ISO-8859-15

То же, что ISO-8859-1, но с добавлением большего количества символов

ISO-2022-JP

Латиница / японский алфавит часть 1

ISO-2022-JP-2

Латинский / японский алфавит часть 2

ISO-2022-KR

Латинский / корейский алфавит часть 1

Консорциум Unicode был тогда создан, чтобы разработать способ показа всех символов разных языков вместо того, чтобы иметь эти разные несовместимые коды символов для разных языков.

Поэтому, если вы хотите создавать документы, которые используют символы из нескольких наборов символов, вы сможете сделать это, используя одиночные кодировки символов Unicode.

Поэтому Юникод определяет кодировки, которые могут обрабатывать строку особым образом, чтобы освободить место для огромного набора символов, который он охватывает. Они известны как UTF8, UTF-16 и UTF-32.

Sr.No Набор символов и описание
1

UTF-8 ,

Формат перевода Unicode, который поставляется в 8-битных единицах, то есть в байтах. Символ в UTF8 может иметь длину от 1 до 4 байтов, что делает UTF8 переменной ширины.

2

UTF-16

Формат перевода Unicode, который поставляется в 16-битных единицах, то есть в шортах. Это может быть 1 или 2 шорты длиной, что делает UTF16 переменной ширины.

3

UTF-32

Формат перевода Unicode, который поставляется в 32-битных единицах, то есть в длинных. Это формат с фиксированной шириной и всегда 1 «длинный» в длину.

UTF-8 ,

Формат перевода Unicode, который поставляется в 8-битных единицах, то есть в байтах. Символ в UTF8 может иметь длину от 1 до 4 байтов, что делает UTF8 переменной ширины.

UTF-16

Формат перевода Unicode, который поставляется в 16-битных единицах, то есть в шортах. Это может быть 1 или 2 шорты длиной, что делает UTF16 переменной ширины.

UTF-32

Формат перевода Unicode, который поставляется в 32-битных единицах, то есть в длинных. Это формат с фиксированной шириной и всегда 1 «длинный» в длину.

Первые 256 символов наборов символов Unicode соответствуют 256 символам ISO-8859-1.

По умолчанию процессоры HTML 4 должны поддерживать UTF-8, а процессоры XML должны поддерживать UTF-8 и UTF-16; поэтому все XHTML-совместимые процессоры также должны поддерживать UTF-16.