What is Punto de código?

Valor numérico en el espacio de código Unicode (U+0000 a U+10FFFF), escrito como U+XXXX. No todos los puntos de código están asignados a caracteres.

What is Carácter de combinación?

Un carácter que se adjunta al carácter base anterior para modificarlo. Categoría general: Mn (sin espacio), Mc (combinación con espacio), Me (encierro). Ejemplo: ◌́ (U+0301 Acento agudo combinado).

What is Unidad de código?

La unidad mínima de codificación: un byte de 8 bits en UTF-8, una palabra de 16 bits en UTF-16, una palabra de 32 bits en UTF-32. Un solo carácter puede requerir múltiples unidades de código.

Propiedades

Clúster de grafemas

El «carácter» percibido por el usuario: lo que parece una sola unidad. Puede constar de varios puntos de código (base + marcas combinantes, o secuencias ZWJ de emoji). 👩‍💻 = 3 puntos de código, 1 grafema.

2022-06-13 · Updated 2024-11-07

What Is a Grapheme Cluster?

A grapheme cluster is what a user perceives as a single "character" on screen—what you see when you tap the delete key once or advance the cursor by one position. Unicode code points and user-perceived characters are not the same: a single grapheme cluster may consist of multiple code points.

The Unicode Standard defines Extended Grapheme Clusters (EGC) in Unicode Standard Annex #29. The boundary rules specify when adjacent code points form a single cluster:

A base character plus any number of combining marks (e.g., a + ́ → á)
Hangul syllable sequences (L + V + T clusters, e.g., ㄱ + ㅏ + ㄴ → 간)
Emoji modifier sequences (👋 + skin-tone modifier 🏽 → 👋🏽)
Flag sequences (regional indicator J + P → 🇯🇵)
Emoji ZWJ sequences (👨 + ZWJ + 👩 + ZWJ + 👧 → 👨‍👩‍👧)
Emoji presentation sequences (digit + U+FE0F variation selector → 1️⃣)

Grapheme Cluster Iteration in Python

# Python's len() counts code points, not grapheme clusters
flag = "\U0001F1EF\U0001F1F5"   # 🇯🇵 Japan flag (J + P regional indicators)
print(len(flag))                 # 2 code points

family = "\U0001F468\u200D\U0001F469\u200D\U0001F467"  # 👨‍👩‍👧
print(len(family))               # 5 code points

# For grapheme-aware string operations, use the 'grapheme' package
# pip install grapheme
try:
    import grapheme
    print(grapheme.length(flag))    # 1
    print(grapheme.length(family))  # 1

    # Grapheme-safe slicing
    text = "café"  # If stored as c + a + f + e + combining acute
    nfd = "cafe\u0301"
    print(grapheme.length(nfd))     # 4 (user sees 4 characters)
    print(len(nfd))                 # 5 (5 code points)
except ImportError:
    print("Install 'grapheme' package for EGC support")

# Hangul example
hangul = "\u0067\u0041\u002F"   # Not Hangul — just example of combining
syllable = "\uAC00"             # 가 — precomposed Hangul syllable
jamo = "\u1100\u1161"           # ᄀ + ᅡ — jamo sequence = same grapheme
import unicodedata
print(unicodedata.normalize("NFC", jamo) == syllable)  # True

Why Grapheme Clusters Matter

Cursor movement and text editing: A text editor must advance the cursor by one grapheme cluster, not one code point. Moving one code point through 👋🏽 (two code points) would split the emoji in half, leaving a broken sequence.

String truncation: Truncating a string to 10 "characters" for display must count grapheme clusters. text[:10] in Python counts code points and may split an emoji sequence.

Regular expressions: The regex \X in PCRE2 and the Python regex package matches a single extended grapheme cluster, enabling grapheme-aware patterns.

Quick Facts

Property	Value
Concept	Extended Grapheme Cluster (EGC)
Defined by	Unicode Standard Annex #29 (UAX #29)
Python built-in	No (use `grapheme` package or `regex` `\X`)
Common pitfall	`len(s)` counts code points, not clusters
Emoji clusters	ZWJ sequences, modifier sequences, flag sequences
Hangul	Jamo sequences form single grapheme clusters

Términos relacionados

Punto de código Carácter de combinación Unidad de código

Más en Propiedades

Alias de nombre

Nombres alternativos para los caracteres, ya que los nombres de Unicode no …

Bloque

Rango contiguo de puntos de código con nombre (por ejemplo, Basic Latin …

Categoría bidireccional

Propiedad que determina cómo se comporta un carácter en texto bidireccional (LTR, …

Categoría general

Clasificación de cada punto de código en una de 30 categorías (Lu, …

Clase de combinación

Valor numérico (0–254) que controla el orden de los signos combinantes durante …

Conversión de mayúsculas y minúsculas

Reglas para convertir caracteres entre mayúsculas, minúsculas y versalitas. Puede depender del …

Descomposición

La descomposición de un carácter en sus partes componentes. La descomposición canónica …

East Asian Width

Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or …

Equivalencia canónica

Dos secuencias de caracteres que son semánticamente idénticas y deben tratarse como …

Equivalencia de compatibilidad

Dos secuencias de caracteres con el mismo contenido abstracto que pueden diferir …

← Volver al glosario