Кодировка символов — это метод преобразования байтов в символы. Чтобы проверить или отобразить документ HTML, программа должна выбрать кодировку символов. У авторов HTML 5 есть три способа настройки кодировки символов:
Заголовок типа содержимого HTTP
Если вы пишете cgi или аналогичную программу, вы должны использовать заголовок HTTP Content-Type для установки любой кодировки символов.
Ниже приведен простой пример —
print "Content-Type: text/html; charset=utf-8\r\n";
Элемент <meta>
Вы можете использовать элемент <meta> с атрибутом charset, который задает кодировку в первых 512 байтах документа HTML5.
Ниже приведен упрощенный пример —
<meta charset="UTF-8">
Приведенный выше синтаксис заменяет необходимость в <meta http-equ = «Content-Type» content = «text / html; charset = UTF-8»>, хотя этот синтаксис все еще разрешен.
Порядок следования байтов Unicode (BOM)
Метка порядка байтов (BOM) состоит из символьного кода U + FEFF в начале потока данных, где он может использоваться в качестве подписи, определяющей порядок байтов и форму кодирования, в основном из немаркированных файлов открытого текста.
Многие программы Windows (включая Блокнот Windows) добавляют байты 0xEF, 0xBB, 0xBF в начале любого документа, сохраненного как UTF-8. Это кодировка UTF-8 метки порядка байтов в Юникоде (BOM), и ее обычно называют спецификацией UTF-8, даже если она не относится к порядку байтов.
Для документа HTML5 вы можете использовать символ Unicode Byte Order Mark (BOM) в начале файла. Этот символ обеспечивает подпись для используемой кодировки.