Учебники

HTML5 — кодировки символов

Кодировка символов — это метод преобразования байтов в символы. Чтобы проверить или отобразить документ HTML, программа должна выбрать кодировку символов. У авторов HTML 5 есть три способа настройки кодировки символов:

Заголовок типа содержимого HTTP

Если вы пишете cgi или аналогичную программу, вы должны использовать заголовок HTTP Content-Type для установки любой кодировки символов.

Ниже приведен простой пример —

print "Content-Type: text/html; charset=utf-8\r\n";

Элемент <meta>

Вы можете использовать элемент <meta> с атрибутом charset, который задает кодировку в первых 512 байтах документа HTML5.

Ниже приведен упрощенный пример —

<meta charset="UTF-8">

Приведенный выше синтаксис заменяет необходимость в <meta http-equ = «Content-Type» content = «text / html; charset = UTF-8»>, хотя этот синтаксис все еще разрешен.

Порядок следования байтов Unicode (BOM)

Метка порядка байтов (BOM) состоит из символьного кода U + FEFF в начале потока данных, где он может использоваться в качестве подписи, определяющей порядок байтов и форму кодирования, в основном из немаркированных файлов открытого текста.

Многие программы Windows (включая Блокнот Windows) добавляют байты 0xEF, 0xBB, 0xBF в начале любого документа, сохраненного как UTF-8. Это кодировка UTF-8 метки порядка байтов в Юникоде (BOM), и ее обычно называют спецификацией UTF-8, даже если она не относится к порядку байтов.

Для документа HTML5 вы можете использовать символ Unicode Byte Order Mark (BOM) в начале файла. Этот символ обеспечивает подпись для используемой кодировки.