Глоссарий Unicode

150 ключевых терминов Unicode с объяснениями — от основ кодирования символов до концепций безопасности.

Кодировка 17 Стандарт Unicode 25 Свойства 19 Алгоритмы 15 Типографика 19 Методы ввода 9 Веб и HTML 16 Программирование и разработка 13 Безопасность 10 Эмодзи 6 Разное 1

Кодировка (17)

ASCII

American Standard Code for Information Interchange. 7-битная кодировка, охватывающая 128 символов (0–127): управляющие символы, цифры, латинские буквы и базовые символы.

ASCII Art

Visual art created from text characters, originally limited to the 95 printable ASCII characters. Unicode expands the palette with box-drawing …

Base64

Binary-to-text encoding that represents binary data using 64 ASCII characters (A–Z, a–z, 0–9, +, /). Used for embedding binary data …

Big5

Кодировка традиционного китайского, используемая в основном на Тайване и в Гонконге, кодирующая около 13 000 CJK-символов.

EBCDIC

Extended Binary Coded Decimal Interchange Code. Кодировка мейнфреймов IBM с непоследовательными диапазонами букв, до сих пор используется в банковских и …

EUC-KR

Корейская кодировка на основе KS X 1001, отображающая слоги хангыля и ханча в двухбайтовые последовательности.

GB2312 / GB18030

Семейство кодировок упрощённого китайского: GB2312 (6763 символа) эволюционировала в GBK, затем в GB18030 — обязательный национальный китайский стандарт, совместимый с …

ISO 8859

Семейство 8-битных однобайтовых кодировок для разных языковых групп. ISO 8859-1 (Latin-1) послужила основой для первых 256 code points Unicode.

Shift JIS

Японская кодировка, сочетающая однобайтовый ASCII/JIS Roman с двухбайтовыми кандзи JIS X 0208. До сих пор используется в устаревших японских системах.

UCS-2

Устаревшая фиксированная 2-байтовая кодировка, охватывающая только BMP (U+0000–U+FFFF). Предшественник UTF-16, не способный представлять дополнительные символы.

UTF-16

Многобайтовая кодировка Unicode, использующая 2 или 4 байта (1 или 2 code unit по 16 бит). Используется внутри Java, JavaScript …

UTF-32

Фиксированная кодировка Unicode, использующая ровно 4 байта на символ. Простая, но неэффективная по памяти; используется внутри Python 3 (CPython).

UTF-8

Многобайтовая кодировка Unicode, использующая 1–4 байта на символ. Доминирующая кодировка веба (98%+ сайтов) с полной обратной совместимостью с ASCII.

Windows-1252

Расширение ISO 8859-1 от Microsoft, добавляющее типографские кавычки, длинное тире и знак евро в диапазоне 0x80–0x9F. Самая распространённая устаревшая «латинская» …

Кодировка символов

Система сопоставления символов с байтовыми последовательностями для цифрового хранения и передачи. Каждый текстовый файл имеет кодировку — вопрос в том, …

Метка порядка байтов

U+FEFF, размещаемый в начале текстового потока для указания порядка байтов и кодировки. Обязателен для UTF-16/32, опционален и не рекомендуется для …

Набор символов IANA

Официальный реестр имён кодировок, поддерживаемый IANA, используемый в заголовках HTTP Content-Type и MIME (например, charset=utf-8).

Стандарт Unicode (25)

Basic Multilingual Plane (BMP)

Плоскость 0 (U+0000–U+FFFF), содержащая наиболее употребительные символы, включая латиницу, греческий, кириллицу, CJK, арабский и большинство символов. Символы здесь помещаются в …

CJK

Китайский, японский и корейский — собирательный термин для унифицированного блока иероглифов хань и связанных письменностей в Unicode. CJK Unified Ideographs …

Han Unification

The process of mapping Chinese, Japanese, and Korean ideographs that share a common historical origin to a single Unicode code …

Hangul Jamo

The individual consonant and vowel components (jamo) of the Korean Hangul writing system. Unicode encodes both precomposed Hangul syllables (U+AC00–U+D7A3) …

ISO 10646 / Universal Character Set

Международный стандарт (ISO/IEC 10646), синхронизированный с Unicode, определяющий тот же репертуар символов и code points, но без дополнительных алгоритмов и …

Unicode

Универсальный стандарт кодирования символов, присваивающий уникальный номер (code point) каждому символу во всех системах письма. Версия 16.0 содержит 154 998 …

Unicode Character Database (UCD)

Машиночитаемая коллекция файлов данных, определяющих все свойства символов Unicode, включая UnicodeData.txt, Blocks.txt, Scripts.txt и многие другие.

Unicode Standard Annex (UAX)

Normative or informative documents that are integral parts of the Unicode Standard. UAX#9 (Bidi Algorithm), UAX#11 (East Asian Width), UAX#15 …

Unicode Technical Report (UTR)

Informational documents published by the Unicode Consortium covering specific topics like security mechanisms (UTR#39), text segmentation (UTR#29), and line breaking …

Абстрактный символ

Единица информации для организации, управления или представления текстовых данных — концептуальная сущность до получения кодовой позиции.

Версия Unicode

Основные выпуски стандарта Unicode, каждый добавляющий новые символы, письменности и функции. Текущая версия — Unicode 16.0 (сентябрь 2025).

Дополнительная плоскость

Плоскости 1–16 (U+10000–U+10FFFF), содержащие эмодзи, исторические письменности, расширения CJK и музыкальную нотацию. Требуют суррогатных пар в UTF-16.

Зарезервированная кодовая точка

Кодовая позиция, зарезервированная для будущей стандартизации, в отличие от несимволов (зарезервированы навсегда) и областей частного использования (назначаемых пользователем).

Зона частного использования

Зарезервированные диапазоны, где организации могут назначать собственные символы: BMP PUA (U+E000–U+F8FF) плюс дополнительные PUA в плоскостях 15 и 16.

Кодовая единица

Минимальная единица кодирования: 8-битный байт в UTF-8, 16-битное слово в UTF-16, 32-битное слово в UTF-32. Один символ может требовать нескольких …

Кодовая точка

Числовое значение в кодовом пространстве Unicode (U+0000–U+10FFFF), записываемое как U+XXXX. Не все code points назначены символам.

Кодовое пространство

Полный диапазон возможных code points Unicode: U+0000–U+10FFFF (1 114 112 всего), разделённый на 17 плоскостей по 65 536 code points …

Консорциум Unicode

Некоммерческая организация, разрабатывающая и поддерживающая стандарт Unicode. Членами являются Apple, Google, Microsoft, Meta и многие другие.

Назначенный символ

Code point, которому присвоено обозначение символа в версии Unicode. На момент Unicode 16.0 назначено 154 998 code points из 1 …

Неназначенная кодовая точка

Кодовая позиция, которой пока не присвоен символ ни в одной версии Unicode, категория Cn (Unassigned). Может быть назначена в будущих …

Несимвол

Code points, постоянно зарезервированные для внутреннего использования (66 всего): U+FDD0–U+FDEF и U+nFFFE/U+nFFFF для каждой плоскости. Допустимы в тексте, но не …

Плоскость

Непрерывный блок из 65 536 code points. Unicode имеет 17 плоскостей (0–16): плоскость 0 — это BMP, плоскость 1 — …

Политика стабильности Unicode

Гарантия, что после назначения символа его code point и имя никогда не меняются. Свойства могут уточняться, но назначения постоянны.

Скалярное значение Unicode

Любая кодовая позиция, кроме суррогатных (U+D800–U+DFFF). Допустимый набор значений для представления реальных символов, всего 1 112 064.

Суррогат

Code points U+D800–U+DFFF, зарезервированные исключительно для суррогатных пар UTF-16. Не являются допустимыми скалярными значениями Unicode и не должны появляться как …

Свойства (19)

East Asian Width

Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or Neutral. Wide characters (CJK ideographs, katakana) occupy two …

Joining Type

Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. Types include Right_Joining, Left_Joining, Dual_Joining, and Non_Joining.

Script Extensions

Unicode property listing all scripts that use a character, broader than the single-valued Script property. Common characters like digits have …

Блок

Именованный непрерывный диапазон кодовых позиций (например, Basic Latin = U+0000–U+007F). Unicode 16.0 определяет 336 блоков; каждая позиция принадлежит ровно одному …

Двунаправленная категория

Свойство, определяющее поведение символа в двунаправленном тексте (LTR, RTL, слабое, нейтральное). Используется алгоритмом Unicode Bidirectional Algorithm для определения порядка отображения.

Декомпозиция

Отображение символа на его компоненты. Каноническая декомпозиция сохраняет значение (é → e + ́); совместимая может изменить его (ﬁ → …

Игнорируемый по умолчанию

Символы, не имеющие видимого эффекта и игнорируемые процессами, которые их не поддерживают, включая селекторы вариантов, символы нулевой ширины и языковые …

Каноническая эквивалентность

Две последовательности символов, семантически идентичные и трактуемые как равные. Пример: é (U+00E9) ≡ e + ◌́ (U+0065 + U+0301).

Класс объединения

Числовое значение (0–254), управляющее порядком комбинирующих знаков при канонической декомпозиции и определяющее, какие знаки можно переупорядочивать.

Кластер графем

Воспринимаемый пользователем «символ» — то, что ощущается как единое целое. Может состоять из нескольких кодовых позиций (база + комбинирующие знаки …

Общая категория

Классификация каждой кодовой позиции в одну из 30 категорий (Lu, Ll, Nd, So и т. д.), сгруппированных в 7 основных …

Письменность

Письменность, к которой принадлежит символ (например, Latin, Cyrillic, Han). Unicode 16.0 определяет 168 письменностей; свойство Script важно для безопасности и …

Преобразование регистра

Правила преобразования символов между верхним, нижним и титульным регистрами. Могут зависеть от локали (проблема турецкого I) и быть отношением один-ко-многим …

Псевдоним имени

Альтернативные имена для символов, поскольку имена Unicode нельзя изменять согласно политике стабильности. Используются для исправлений, сокращений и фантомов.

Пунктуация

Символы, используемые для организации и уточнения письменного языка: точки, запятые, тире, кавычки и другие. Общая категория Unicode P охватывает всю …

Свойство версии

Версия Unicode, в которой символ был впервые назначен. Полезно для определения поддержки символов в системах и версиях ПО.

Свойство зеркального отражения

Символы, глиф которых должен зеркально отражаться в RTL-контексте. Примеры: ( → ), [ → ], { → }, « → …

Числовое значение

Числовая интерпретация символа, если есть: значение цифры (0–9), десятичное значение или общее числовое значение (например, ½ = 0.5, Ⅳ = …

Эквивалентность совместимости

Две последовательности символов с одинаковым абстрактным содержанием, но возможно различным отображением. Шире канонической эквивалентности. Пример: ﬁ ≈ fi, ² ≈ …

Алгоритмы (15)

Case Folding

Mapping characters to a common case form for case-insensitive comparison. More comprehensive than lowercasing: German ß → ss, Turkish İ …

Grapheme Cluster Boundary

Rules (UAX#29) for determining where one user-perceived character ends and another begins. Critical for cursor movement, text selection, and correctly …

NFC (Canonical Composition)

Normalization Form C: декомпозиция с последующей канонической рекомпозицией, дающая кратчайшую форму. Рекомендуется для хранения и обмена данными; стандартная веб-форма.

NFD (Canonical Decomposition)

Normalization Form D: полная декомпозиция без рекомпозиции. Используется файловой системой macOS HFS+. é (U+00E9) → e + ◌́ (U+0065 + …

NFKC (Compatibility Composition)

Normalization Form KC: совместимая декомпозиция с последующей канонической композицией. Объединяет визуально похожие символы (ﬁ→fi, ²→2, Ⅳ→IV). Используется для сравнения идентификаторов.

NFKD (Compatibility Decomposition)

Normalization Form KD: совместимая декомпозиция без рекомпозиции. Самая агрессивная нормализация с максимальной потерей информации о форматировании.

String Comparison

Comparing Unicode strings requires normalization (NFC/NFD) and optionally collation (locale-aware sorting). Binary comparison of code points alone gives incorrect results …

Алгоритм переноса строки

Правила определения мест переноса текста на следующую строку с учетом свойств символов, границ слов CJK и возможностей разрыва.

Алгоритм сортировки

Стандартный алгоритм сравнения и сортировки строк Unicode с многоуровневым сравнением: базовый символ → акценты → регистр → критерии разрешения. Настраивается …

Граница предложения

Позиция между предложениями по правилам Unicode. Сложнее разделения по точкам — учитывает сокращения (Mr.), многоточие (...) и десятичные точки (3.14).

Граница слова

Позиция между словами согласно правилам Unicode. Не простое разделение по пробелам — обрабатывает CJK (без пробелов), сокращения и числа корректно.

Двунаправленный алгоритм

Алгоритм определения порядка отображения символов в разнонаправленном тексте (например, английский + арабский) с использованием bidi-категорий и явных переопределений направления.

Исключение композиции

Символы, исключённые из канонической композиции (NFC) для предотвращения декомпозиции не-стартеров и обеспечения алгоритмической стабильности. Перечислены в CompositionExclusions.txt.

Нормализация

Процесс преобразования текста Unicode в стандартную каноническую форму. Четыре формы: NFC (скомпонованная), NFD (декомпонованная), NFKC (совместимая скомпонованная), NFKD (совместимая декомпонованная).

Сегментация текста

Алгоритмы поиска границ в тексте: границы графемных кластеров, слов и предложений. Критично для перемещения курсора, выделения текста и обработки.

Типографика (19)

CSS unicode-range

CSS @font-face descriptor specifying which Unicode code points a font should cover. Enables downloading only the font subset needed for …

Em / En (Типографские единицы)

Em: ширина, равная кеглю шрифта. En: половина em. Используются для определения ширины длинного тире, пробела em, пробела en и единиц …

Font Fallback

The mechanism by which a rendering engine substitutes glyphs from a secondary font when the primary font lacks coverage for …

OpenType

Modern font format developed by Microsoft and Adobe supporting up to 65,535 glyphs, advanced typographic features (ligatures, alternates, kerning), and …

RTL (Right-to-Left)

Направление текста, при котором символы располагаются справа налево. Используется арабским, еврейским, тана и другими письменностями; требует Bidirectional Algorithm для правильного …

Web Fonts

Fonts downloaded by the browser to render text, declared via CSS @font-face. WOFF2 is the standard format. Unicode subsetting and …

Глиф

Визуальное представление символа, отображаемое шрифтом. Один символ может иметь несколько глифов (лигатуры, контекстные формы); один глиф может представлять несколько символов.

Диакритический знак

Знак, добавляемый к букве для изменения произношения или значения. Может быть предкомпонованным (é U+00E9) или комбинируемым (e + ◌́ U+0065+U+0301). …

Кавычки

Парные знаки пунктуации, обрамляющие прямую речь или цитаты. Unicode включает прямые (""), фигурные (""), кавычки-ёлочки (« »), CJK угловые скобки …

Кернинг

Настройка межсимвольного расстояния для конкретных пар символов для визуальной гармонии (например, AV, To, LT). Это функция шрифта, а не концепция …

Лигатура

Два или более символа, объединённые в один глиф. Может быть типографской (fi → ﬁ через OpenType) или символом Unicode (ﬁ …

Малые прописные

Прописные буквы высотой строчных букв. CSS: font-variant: small-caps. Unicode также содержит настоящие малые прописные буквы в Latin Extended (ᴀ–ᴢ).

Многоточие

U+2026 HORIZONTAL ELLIPSIS (…). Один символ, заменяющий три точки, типографически корректный и считающийся за 1 символ вместо 3.

Неразрывный пробел

U+00A0. Пробел, предотвращающий разрыв строки в своей позиции. HTML:  . Используется между числами и единицами (100 км), в именах собственных …

Объединяющий символ

Символ, присоединяющийся к предшествующему базовому символу для его модификации. Общая категория: Mn (неразмещающий), Mc (размещающий комбинируемый), Me (охватывающий). Пример: ◌́ …

Пробельный символ

Символы, представляющие горизонтальные или вертикальные пробелы, но не имеющие видимого глифа. Unicode определяет более 17 пробельных символов с различной шириной …

Символ нулевой ширины

Символы с нулевой шириной — невидимые при рендеринге, но влияющие на поведение текста. Включают ZWSP (разрыв слова), ZWJ (соединение), ZWNJ …

Тире

Знаки пунктуации, используемые для разделения частей предложения или обозначения диапазонов. Unicode определяет несколько тире: дефис (‐), короткое тире (–), длинное …

Шрифт

Конкретная реализация гарнитуры определённого размера, насыщенности и начертания. В цифровой типографике — файл шрифта (TTF, OTF, WOFF2), содержащий определения глифов …

Методы ввода (9)

Alt-код

Метод ввода Windows, использующий Alt + цифры на цифровой клавиатуре для ввода символов по номеру кодовой страницы (Alt+0169 → ©, …

Character Palette

A system-level tool for browsing and inserting Unicode characters. macOS Character Viewer (Ctrl+Cmd+Space), Windows Character Map (charmap.exe), and Linux gucharmap …

Input Method Editor (IME)

Программный компонент, обеспечивающий ввод сложных символов (CJK, корейских и т.д.) с помощью стандартной клавиатуры, преобразующий последовательности нажатий в символы через …

Ввод в шестнадцатеричном формате

Прямой ввод кодовой позиции Unicode путём набора шестнадцатеричного значения. Mac: удерживать Option + hex + отпустить. Windows: набрать hex затем …

Выбор символа

Компонент интерфейса (нативный или веб-приложение) для визуального просмотра и выбора символов. Панели emoji на мобильных устройствах — наиболее распространённый пример.

Клавиша Compose

Клавиша (обычно правый Alt или настраиваемая), начинающая многоклавишную композитную последовательность. Функция Linux/Unix: Compose + a + e → æ. Настраивается …

Метод ввода Unicode

Любой метод ввода символов по их кодовой позиции Unicode: hex-ввод (Mac), ввод U+XXXX через Ctrl+Shift+U (Linux) или Alt+X (приложения Windows).

Мёртвая клавиша

Клавиша, не производящая немедленного вывода, но изменяющая следующее нажатие. Используется для диакритических знаков: нажатие ` затем e даёт è. Распространено …

Таблица символов

Графическая утилита для просмотра и вставки символов Unicode. Windows: charmap.exe. Mac: Character Viewer (Control+Command+Space). Linux: gucharmap.

Веб и HTML (16)

CSS Text Direction

CSS properties (direction, writing-mode, unicode-bidi) controlling text layout direction. Works with Unicode Bidi Algorithm for mixed LTR/RTL content in web …

HTML-сущность

Текстовое представление символа в HTML. Три формы: именованная (&), десятичная (&), шестнадцатеричная (&). Необходимы для символов, конфликтующих с синтаксисом HTML.

Internationalized Domain Name (IDN)

Доменные имена, содержащие не-ASCII символы Unicode, внутренне хранящиеся как Punycode (xn--...), но отображаемые пользователям в Unicode. Проблема безопасности: атаки омографов.

JavaScript Intl API

ECMAScript Internationalization API providing locale-aware string comparison (Collator), number formatting (NumberFormat), date formatting (DateTimeFormat), and segmentation (Segmenter).

Punycode

ASCII-совместимое кодирование доменных имён Unicode, преобразующее интернационализированные метки в ASCII-строки с префиксом xn--. münchen.de → xn--mnchen-3ya.de.

Unicode in CSS

CSS supports Unicode via escape sequences (\2713 for ✓), the content property for generated text, unicode-range for font subsetting, and …

Именованная ссылка на символ

HTML-сущность, использующая понятное имя: © → ©, — → —. HTML5 определяет 2 231 именованную ссылку; они чувствительны к регистру.

Набор символов Content-Type

Параметр HTTP-заголовка, объявляющий кодировку символов ответа (Content-Type: text/html; charset=utf-8). Переопределяет любое объявление кодировки внутри документа.

Объединитель слов

U+2060. Символ нулевой ширины, предотвращающий перенос строки. Современная замена U+FEFF (BOM) в качестве неразрывного пробела нулевой ширины.

Отображение эмодзи

Отображение символа цветным emoji-глифом, обычно с использованием селектора вариантов 16 (U+FE0F). Некоторые символы по умолчанию отображаются как emoji, другие — …

Процентное кодирование (URL-кодирование)

Кодирование не-ASCII и зарезервированных символов в URL путём замены каждого байта на %XX. Сначала используется UTF-8, затем каждый байт процентно …

Свойство CSS content

Свойство CSS, вставляющее генерируемый контент через псевдоэлементы ::before и ::after с использованием Unicode-экранирования: content: "\2713" вставляет ✓.

Селектор вариантов

Символы (U+FE00–U+FE0F, U+E0100–U+E01EF), которые выбирают конкретный вариант начертания глифа. VS15 (U+FE0E) = текстовое представление, VS16 (U+FE0F) = emoji-представление.

Ссылка на символ XML

XML-версия числовых символьных ссылок: ✓ или ✓. В XML есть только 5 именованных сущностей (& < > " '), тогда …

Текстовое отображение

Отображение символа простым монохромным текстовым глифом, а не цветным emoji, обычно с использованием селектора вариантов 15 (U+FE0E) для переопределения стандартного …

Числовая ссылка на символ

HTML-сущность, использующая номер кодовой позиции Unicode: десятичный (© → ©) или шестнадцатеричный (© → ©). Работает для любого символа Unicode, …

Программирование и разработка (13)

Escape-последовательность Unicode

Синтаксис для представления Unicode-символов в исходном коде. Варьируется в зависимости от языка: \u2713 (Python/Java/JS), \u{2713} (JS/Ruby/Rust), \U00012345 (Python/C).

Java Unicode

Java strings use UTF-16 internally. char is 16-bit (only BMP). For supplementary characters, use codePointAt() and Character.toChars(). Java's \uXXXX escapes …

Mojibake

Искажённый текст, возникающий при декодировании байтов с неправильной кодировкой. Японский термин (文字化け). Пример: 'café' сохранён как UTF-8, но прочитан как …

Python Unicode

Python 3 uses Unicode strings by default (str = UTF-8 internally via PEP 393). Key features: \N{name} escapes, unicodedata module, …

Rust Unicode

Rust strings (str/String) are guaranteed valid UTF-8. char type represents a Unicode scalar value (4 bytes). Iteration via .chars() yields …

Кодирование / Декодирование

Кодирование преобразует символы в байты (str.encode('utf-8')); декодирование преобразует байты в символы (bytes.decode('utf-8')). Правильное использование предотвращает mojibake.

Невидимый символ

Любой символ без видимого глифа: пробельные символы, символы нулевой ширины, управляющие символы и символы форматирования. Может вызывать проблемы безопасности, такие …

Неоднозначность длины строки

«Длина» Unicode-строки зависит от единицы измерения: кодовые единицы (JavaScript .length), кодовые точки (Python len()) или графемные кластеры. 👨‍👩‍👧‍👦 = 7 …

Нулевой символ

U+0000 (NUL). Первый символ Unicode/ASCII, используемый как терминатор строки в C/C++. Риск безопасности: внедрение нулевого байта может обрезать строки в …

Регулярное выражение Unicode

Регулярные выражения с использованием Unicode-свойств: \p{L} (любая буква), \p{Script=Greek} (греческое письмо), \p{Emoji}. Поддержка зависит от языка и движка регулярных выражений.

Символ замены

U+FFFD (�). Отображается, когда декодер обнаруживает недопустимые байтовые последовательности — универсальный символ для «что-то пошло не так при декодировании».

Строка

Последовательность символов в языке программирования. Внутреннее представление варьируется: UTF-8 (Go, Rust, новые сборки Python), UTF-16 (Java, JavaScript, C#) или UTF-32 …

Суррогатная пара

Две 16-битные кодовые единицы (старший суррогат U+D800–U+DBFF + младший суррогат U+DC00–U+DFFF), которые вместе кодируют дополнительный символ в UTF-16. 😀 = …

Безопасность (10)

Bidi Text Attack

Exploiting Unicode bidirectional control characters to disguise malicious code or filenames. The 'Trojan Source' attack (CVE-2021-42574) uses bidi overrides to …

Normalization Attack

Exploiting Unicode normalization to bypass security filters. Input validated before normalization may change form after: 'ﬁ' (U+FB01) normalizes to 'fi', …

Zero Width Joiner (ZWJ)

U+200D. Запрашивает объединение соседних символов. Критичен для emoji-последовательностей (👩+ZWJ+💻=👩‍💻). В индийских письменностях запрашивает образование лигатур. Также может скрывать границы текста.

Zero Width Non-Joiner (ZWNJ)

U+200C. Предотвращает объединение соседних символов. Необходим в персидском/арабском для правильных форм букв и используется в деванагари для предотвращения лигатур.

Атака с использованием омографов IDN

Использование визуально похожих Unicode-символов в доменных именах для имитации легитимных сайтов. аpple.com (кириллическая а) выглядит как apple.com. Браузеры защищаются правилами …

Атака через замену двунаправленного текста

Использование Unicode-символов переопределения двунаправленности (U+202A–U+202E, U+2066–U+2069) для маскировки вредоносных имён файлов или кода. 'readme‮fdp.exe' отображается как 'readmeexe.pdf'.

Обнаружение смешанных систем письма

Идентификация текста, смешивающего символы из разных письменностей (например, латиница + кириллица). Основная защита от атак с омоглифами; браузеры используют это …

Омоглиф

Символы из разных письменностей, которые выглядят идентично или очень похоже, например, латинская 'a' и кириллическая 'а'. Используется в фишинге, подмене …

Похожий символ

Официальный термин Unicode для пар символов, которые можно визуально перепутать, определённых в confusables.txt (UCD). Шире, чем омоглифы — включает просто …

Спуфинг Unicode

Использование функций Unicode для обмана пользователей: омоглифы для поддельных доменов, переопределение bidi для поддельных расширений файлов или невидимые символы для …

Эмодзи (6)

Emoji

Пиктографические Unicode-символы, происходящие из японских мобильных телефонов. Сейчас 3 790+ emoji в нескольких блоках (Emoticons, Misc Symbols & Pictographs, Transport …

Emoji Sequences

Multi-character emoji constructed by combining base emoji with modifiers, ZWJ characters, or variation selectors. Types include keycap sequences (#️⃣), flag …

Emoji Skin Tone

Five Fitzpatrick scale modifiers (U+1F3FB–U+1F3FF, 🏻–🏿) that change human emoji skin color. Applied by appending the modifier after a base …

Модификатор эмодзи (тон кожи)

Модификаторы оттенка кожи по шкале Фицпатрика (U+1F3FB–U+1F3FF), которые изменяют цвет кожи человеческих emoji, помещаясь сразу после базового человеческого emoji.

Последовательность ZWJ для эмодзи

Emoji, построенные объединением нескольких emoji с помощью соединителя нулевой ширины (U+200D). 👨‍👩‍👧‍👦 = Мужчина + ZWJ + Женщина + ZWJ …

Региональный индикатор

26 символов (U+1F1E6–U+1F1FF, 🇦–🇿), которые объединяются парами для формирования флагов стран на основе кодов стран ISO 3166-1. 🇺+🇸 = 🇺🇸.

Разное (1)

Управляющий символ

Непечатаемые символы, управляющие обработкой текста. C0 (U+0000–U+001F): NUL, TAB, LF, CR, ESC. C1 (U+0080–U+009F): редко используются в современном Unicode. Общая …