Учебники

XML — Кодировка

Кодирование — это процесс преобразования символов Юникода в их эквивалентное двоичное представление. Когда процессор XML читает документ XML, он кодирует документ в зависимости от типа кодировки. Следовательно, нам нужно указать тип кодировки в декларации XML.

Типы кодирования

Есть в основном два типа кодирования —

  • UTF-8,
  • UTF-16

UTF обозначает формат преобразования UCS , а сама UCS означает универсальный набор символов . Число 8 или 16 относится к числу битов, используемых для представления символа. Они либо 8 (один байт), либо 16 (два байта). Для документов без информации о кодировке UTF-8 установлен по умолчанию.

Синтаксис

Тип кодирования включен в раздел пролога XML-документа. Синтаксис для кодировки UTF-8 следующий:

<?xml version = "1.0" encoding = "UTF-8" standalone = "no" ?>

Синтаксис для кодирования UTF-16 следующий:

<?xml version = "1.0" encoding = "UTF-16" standalone = "no" ?>

пример

Следующий пример показывает объявление кодировки —

<?xml version = "1.0" encoding = "UTF-8" standalone = "no" ?>
<contact-info>
   <name>Tanmay Patil</name>
   <company>TutorialsPoint</company>
   <phone>(011) 123-4567</phone>
</contact-info>

В вышеприведенном примере encoding = «UTF-8» указывает, что 8-битные символы используются для представления символов. Для представления 16-битных символов может использоваться кодировка UTF-16 .

Файлы XML, закодированные с использованием UTF-8, имеют тенденцию быть меньше по размеру, чем файлы, закодированные с использованием формата UTF-16.