What is Point de code?

Valeur numérique dans l'espace de codes Unicode (U+0000 à U+10FFFF), écrite sous la forme U+XXXX. Tous les points de code ne sont pas assignés à des caractères.

What is Caractère de combinaison?

Un caractère qui s'attache au caractère de base précédent pour le modifier. Catégorie générale : Mn (non-espacement), Mc (combinaison avec espacement), Me (encerclement). Exemple : ◌́ (U+0301 Accent aigu combinant).

What is Unité de code?

L'unité minimale d'encodage : un octet de 8 bits en UTF-8, un mot de 16 bits en UTF-16, un mot de 32 bits en UTF-32. Un seul caractère peut nécessiter plusieurs unités de code.

Propriétés

Grappe de graphèmes

Le « caractère » perçu par l'utilisateur — ce qui ressemble à une seule unité. Peut se composer de plusieurs points de code (base + marques combinantes, ou séquences ZWJ d'emoji). 👩‍💻 = 3 points de code, 1 graphème.

2022-06-13 · Updated 2024-11-07

What Is a Grapheme Cluster?

A grapheme cluster is what a user perceives as a single "character" on screen—what you see when you tap the delete key once or advance the cursor by one position. Unicode code points and user-perceived characters are not the same: a single grapheme cluster may consist of multiple code points.

The Unicode Standard defines Extended Grapheme Clusters (EGC) in Unicode Standard Annex #29. The boundary rules specify when adjacent code points form a single cluster:

A base character plus any number of combining marks (e.g., a + ́ → á)
Hangul syllable sequences (L + V + T clusters, e.g., ㄱ + ㅏ + ㄴ → 간)
Emoji modifier sequences (👋 + skin-tone modifier 🏽 → 👋🏽)
Flag sequences (regional indicator J + P → 🇯🇵)
Emoji ZWJ sequences (👨 + ZWJ + 👩 + ZWJ + 👧 → 👨‍👩‍👧)
Emoji presentation sequences (digit + U+FE0F variation selector → 1️⃣)

Grapheme Cluster Iteration in Python

# Python's len() counts code points, not grapheme clusters
flag = "\U0001F1EF\U0001F1F5"   # 🇯🇵 Japan flag (J + P regional indicators)
print(len(flag))                 # 2 code points

family = "\U0001F468\u200D\U0001F469\u200D\U0001F467"  # 👨‍👩‍👧
print(len(family))               # 5 code points

# For grapheme-aware string operations, use the 'grapheme' package
# pip install grapheme
try:
    import grapheme
    print(grapheme.length(flag))    # 1
    print(grapheme.length(family))  # 1

    # Grapheme-safe slicing
    text = "café"  # If stored as c + a + f + e + combining acute
    nfd = "cafe\u0301"
    print(grapheme.length(nfd))     # 4 (user sees 4 characters)
    print(len(nfd))                 # 5 (5 code points)
except ImportError:
    print("Install 'grapheme' package for EGC support")

# Hangul example
hangul = "\u0067\u0041\u002F"   # Not Hangul — just example of combining
syllable = "\uAC00"             # 가 — precomposed Hangul syllable
jamo = "\u1100\u1161"           # ᄀ + ᅡ — jamo sequence = same grapheme
import unicodedata
print(unicodedata.normalize("NFC", jamo) == syllable)  # True

Why Grapheme Clusters Matter

Cursor movement and text editing: A text editor must advance the cursor by one grapheme cluster, not one code point. Moving one code point through 👋🏽 (two code points) would split the emoji in half, leaving a broken sequence.

String truncation: Truncating a string to 10 "characters" for display must count grapheme clusters. text[:10] in Python counts code points and may split an emoji sequence.

Regular expressions: The regex \X in PCRE2 and the Python regex package matches a single extended grapheme cluster, enabling grapheme-aware patterns.

Quick Facts

Property	Value
Concept	Extended Grapheme Cluster (EGC)
Defined by	Unicode Standard Annex #29 (UAX #29)
Python built-in	No (use `grapheme` package or `regex` `\X`)
Common pitfall	`len(s)` counts code points, not clusters
Emoji clusters	ZWJ sequences, modifier sequences, flag sequences
Hangul	Jamo sequences form single grapheme clusters

Termes associés

Point de code Caractère de combinaison Unité de code

Plus dans Propriétés

Alias de nom

Noms alternatifs pour les caractères, les noms Unicode ne pouvant pas changer …

Bloc

Plage contiguë nommée de points de code (par ex. Basic Latin = …

Catégorie bidirectionnelle

Propriété déterminant le comportement d'un caractère dans un texte bidirectionnel (LTR, RTL, …

Catégorie générale

Classification de chaque point de code dans l'une des 30 catégories (Lu, …

Classe de combinaison

Valeur numérique (0–254) contrôlant l'ordre des marques combinantes lors de la décomposition …

Correspondance de casse

Règles de conversion des caractères entre majuscules, minuscules et casse de titre. …

Décomposition

La décomposition d'un caractère en ses éléments constitutifs. La décomposition canonique préserve …

East Asian Width

Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or …

Ignorable par défaut

Caractères ne devant avoir aucun effet visible et pouvant être ignorés par …

Joining Type

Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. …

← Retour au glossaire