Статьи

Понимание Unicode

Одной из более сложных проблем в современной сети является проблема интернационализации, которая часто сокращается до i18n («i», затем еще 18 букв, затем «n»). Всемирная паутина действительно соответствует своему названию, и даже если ваш сайт имеет локальную аудиторию, вы все равно можете столкнуться с иностранными буквами, будь то имена с немецкой пунктуацией или цитаты на иностранном языке.

Окончательное решение проблемы с чужими символами — это Unicode, действительно огромный стандарт, который пытается документировать и обеспечивать кодирование практически для каждого символа на каждом известном человеку языке, оставляя место для будущих языковых разработок. Отличной отправной точкой для понимания Юникода является эссе Тима Брея « О Юникоде» . Если это заставит вас жаждать большего, то и Джоэл Спольски « Абсолютный минимум каждого разработчика программного обеспечения, абсолютно и положительно знающий о юникоде и наборах символов (без оправданий!)» Также отлично подходит для чтения.

Итак, теперь вы понимаете суть проблемы i18n, как вы решаете ее в своей собственной работе с Интернетом? К счастью, у W3C есть два полезных документа на эту тему в рамках серии « Методы авторизации для XHTML и HTML Internationalization »: « Символы и кодировки 1.0» и « Указание языка содержимого» . Не расстраивайтесь из-за длинных титулов или обширных преамбул; Мясо этих документов представляет собой набор очень простых для соблюдения руководящих принципов. Учебное пособие Юкки Корпела по вопросам кодировки символов — еще один отличный ресурс по этому вопросу.

В заключение, если вы хотите использовать Unicode с PHP, заметки Кейта Девенса по этому вопросу могут оказаться чрезвычайно полезными. И если вы хотите проверить свои веб-приложения на предмет кодировки символов, попробуйте вставить тест из руководства Сэма Руби по выживанию на i18n .