Основы PHP

Теория: Погружаясь в строки

Полный доступ к материалам

Зарегистрируйтесь и получите доступ к этому и десяткам других курсов

Юникод

Данные программы хранятся в памяти компьютера в виде последовательности нулей и единиц. На этом уровне нет разницы между строками, числами или булевыми значениями. В памяти все выглядит одинаково. Разница появляется только в результате интерпретации.

Программа знает, что внутри некоторой переменной хранится строка, поэтому она берет нули и единички и пропускает их сквозь кодовую таблицу. В ней указано, какому числу соответствует какая буква. В результате программист видит строку. В этом уроке мы обсудим, как работают такие кодовые таблицы.

В самом начале была только ASCII — кодировка, основанная на английском алфавите.

В этой кодировке одному символу соответствует 7 бит, всего в ней закодировано 128 символов:

95 печатных символов, включая буквы алфавита в верхнем и нижнем регистрах, цифры и знаки препинания
33 непечатных символа (управляющих кода)

Большинство непечатных символов сейчас не актуальны, но некоторые по-прежнему используются — например, перевод строки \n.

Символы в ASCII можно перекодировать. Например, символ i в нижнем регистре соответствует:

Числу 1101001 в двоичной системе счисления
Числу 105 в десятичной системе

Поначалу все было хорошо, но с распространением компьютеров возникла потребность в других алфавитах. Каждая страна решала данную проблему созданием собственной кодировки, большинство из которых совместимы с ASCII:

Первые 128 символа полностью соответствовали ASCII
Остальные 128 — заполнялись локальным алфавитом

В итоге в таких кодировках было 256 символов, а это 2 в 8 степени.

Эти кодировки были однобайтовыми — для хранения одного символа требовался один байт. Но внезапно возникла проблема: попытка открыть в редакторе файл в другой кодировке приводила к появлению «кракозябр»:

Øèðîêàÿ ýëåêòðèôèêàöèÿ þæíûõ ãóáåðíèé äàñò ìîùíûé òîë÷îê ïîäú¸ìó ñåëüñêîãî õîçÿéñòâà

Возникают они потому, что один и тот же код в разных кодировках соответствует совершенно разным символам, за исключением первых 128. Поэтому текст, использующий английские буквы всегда читался, а в остальном — как повезет. Ситуация усугублялась тем, что даже в рамках одного алфавита создавалось множество разных кодировок, например: Windows-1252, KOI8-R, CP 866, ISO 8859-5.

В языках программирования на тот момент все функции для работы со строками создавались из расчета, что один символ — это один байт. По крайней мере, это свойство было общим для всех кодировок.

Разные кодировки стали причиной постоянных проблем при взаимодействии людей и программ. Особенно остро эта проблема проявилась с развитием интернета. Такая ситуация не могла продолжаться бесконечно, и в конце концов был создан стандарт Юникод (Unicode).

Сейчас он содержит более 100 тысяч символов и включает в себя все существующие языки, даже мертвые. Стандарт Юникод не является кодировкой и ничего не говорит о том, как должны храниться символы в памяти, он лишь определяет связь между символом и некоторым числом.

Конкретный способ кодирования Юникода определяется соответствующими кодировками, среди которых есть UTF-8, UTF-16 и некоторые другие. В этих кодировках для хранения одного символа уже недостаточно одного байта, они используют больше. UTF-8 ведет себя хитрее: для символов английского алфавита и некоторых других используется один байт, для других алфавитов — два байта.

После многих лет популяризации Юникода свершилось чудо, и сейчас подавляющее большинство программного обеспечения использует UTF-8. Этот процесс был болезненный и по-разному отразился на языках программирования. Например, в PHP стандартные функции не поддерживают многобайтовые кодировки:

<?php

echo strlen('Привет!'); // => 13

Языки разделились на два лагеря. Одни языки встроили поддержку в уже существующие функции — в итоге переход на UTF-8 никак не отразился на процессе программирования. Среди таких языков есть Java, Ruby, JavaScript.

А вот PHP пошел своим путем. Для работы с многобайтовыми кодировками в язык добавили отдельное расширение по работе с многобайтовыми строками. По большей части оно добавляет множество функций для работы со строками, с той лишь разницей, что каждая функция из них имеет префикс mb_ (multibyte):

<?php

echo mb_strlen('Привет!'); // => 7

А вот достойной альтернативы взятию конкретного символа в строке по индексу не существует. Такую задачу нужно выполнять с помощью функции mb_substr():

<?php

$str = 'Привет';
$symbol = mb_substr($str, 2, 1); // и

Локализация

Глобализация проявляется во многих аспектах, в том числе в единой системе мер: время, размеры и расстояния, температуры, даты и многое другое.

Конечно, есть страны, которые выпадают из общего потока. Например, США — это чуть ли не единственная страна, в которой сохраняется и превалирует английская система мер. США использует мили вместо километров и фунты вместо килограммов. Во многих восточных странах по-другому устроены календари, и где-то сейчас идет четырехтысячный год. Но в целом все унифицировано.

Несмотря на эту унификацию, в каждой стране есть свои особенности по способу записи, сравнению и другим аспектам. Например, в США принято в датах первым ставить месяц, а вторым — день. В некоторых странах для вывода вещественных чисел используют точку, а в некоторых — запятую: 1,234.

Эти особенности необязательно привязаны к целой стране. Внутри одной страны может быть множество дополнительных разделений. Каждый такой набор особенностей называют локалью, а процесс адаптации к особенностям конкретной локали — локализацией.

Локализация важна в программном обеспечении. Пользователь всегда ожидает, что любой софт или сайт будет работать предсказуемо. В это понятие включается и локализация. Понятно, что самостоятельное решение этой задачи слишком затратно. К счастью, этого делать не нужно. Локализация обычно встроена в сам язык или в специальные библиотеки.

В PHP для управления локалью используется функция setlocale(). Эта функция настраивает локаль глобально. Ее вызов влияет на все последующие функции, опирающиеся на локализацию:

setlocale(int $category, string $locales, string ...$rest): string|false

Первым параметром эта функция принимает название категории (как константу), к которой нужно применить локаль, передающуюся в параметрах дальше:

LC_ALL — все нижеперечисленное
LC_COLLATE — функции сравнения строк strcoll()
LC_CTYPE — функции преобразования и классификации строк, например, strtoupper()
LC_MONETARY — для функции localeconv()
LC_NUMERIC — задает символ десятичного разделения localeconv()
LC_TIME — форматирование даты и времени функцией strftime()

Изучим на примере, как установленная локаль влияет на отображение данных:

<?php

printf("%g \n", 1.234); // => 1.234
setlocale(LC_NUMERIC, 'ru_RU');
printf("%g \n", 1.234); // => 1,234

Попробуем вторым аргументом передать 0 вместо локали: setlocale(LC_ALL, 0). В таком случае функция будет возвращать текущую установленную локаль для категории.

Поиск стартовой позиции

Часто в работе со строками нужно определить, является ли одна строка подстрокой — частью другой строки. В большинстве языков программирования есть встроенная функция, предназначенная именно для этой задачи.

В PHP такая функция появилась лишь в восьмой версии. До этого ее имитировали с помощью функции mb_strpos(). Эта функция ищет позицию первого вхождения одной строки в другую. Пока мы будем использовать именно mb_strpos():

<?php

if (mb_strpos('Валар Моргулис', 'Моргулис')) { // 6
    // ...
}

В примере выше функция вернет 6, что соответствует индексу буквы М:

<?php

if (mb_strpos('Валар Моргулис', 'Валар')) { // 0
    // ...
}

А в этом примере вернется 0, что соответствует первой букве ст��оки. В этом коде скрыта ошибка, которую часто допускают новички. В PHP 0 рассматривается, как false — значит, условие не выполнится. Правильная проверка выглядит так:

<?php

if (mb_strpos('Валар Моргулис', 'Валар') !== false) {
    // ...
}

Функция mb_strpos() возвращает false, если подстрока не была найдена. Значит, можно воспользоваться строгим сравнением с false.

Каталог

Полный список доступных курсов по разным направлениям

Дальше→

Навигация по темеТеория

Завершено

0 / 42

→

Хекслет

О нас Справка Карта сайта

Направления

Программирование Аналитика Тестирование

Профессии

Python-разработчик Фронтенд-разработчик Java-разработчик Инженер по тестированию PHP-разработчик Аналитик данных

Навыки

Spring Boot Laravel Django React Jest Веб-разработка на Express

support@hexlet.io

t.me/hexlet_help_bot

RU EN

+7 800 100 22 47

бесплатно по РФ

+7 495 085 21 62

бесплатно по Москве

Правовая информация Оферта Контакты

ТОО «Hexlet»

Республика Казахстан, г. Алматы,

ул. Ауэзова, д. 14А

БИН 230340043714

Теория: Погружаясь в строки

Юникод

Локализация

Поиск стартовой позиции

Рекомендуемые программы

Каталог