Кодирование — это процесс преобразования символов Юникода в их эквивалентное двоичное представление. Когда процессор XML читает документ XML, он кодирует документ в зависимости от типа кодировки. Следовательно, нам нужно указать тип кодировки в декларации XML.
Типы кодирования
Есть в основном два типа кодирования —
- UTF-8,
- UTF-16
UTF обозначает формат преобразования UCS , а сама UCS означает универсальный набор символов . Число 8 или 16 относится к числу битов, используемых для представления символа. Они либо 8 (один байт), либо 16 (два байта). Для документов без информации о кодировке UTF-8 установлен по умолчанию.
Синтаксис
Тип кодирования включен в раздел пролога XML-документа. Синтаксис для кодировки UTF-8 следующий:
<?xml version = "1.0" encoding = "UTF-8" standalone = "no" ?>
Синтаксис для кодирования UTF-16 следующий:
<?xml version = "1.0" encoding = "UTF-16" standalone = "no" ?>
пример
Следующий пример показывает объявление кодировки —
<?xml version = "1.0" encoding = "UTF-8" standalone = "no" ?> <contact-info> <name>Tanmay Patil</name> <company>TutorialsPoint</company> <phone>(011) 123-4567</phone> </contact-info>
В вышеприведенном примере encoding = «UTF-8» указывает, что 8-битные символы используются для представления символов. Для представления 16-битных символов может использоваться кодировка UTF-16 .
Файлы XML, закодированные с использованием UTF-8, имеют тенденцию быть меньше по размеру, чем файлы, закодированные с использованием формата UTF-16.