What is Normalización?

Proceso de convertir texto Unicode a una forma canónica estándar. Cuatro formas: NFC (compuesta), NFD (descompuesta), NFKC (compatibilidad compuesta), NFKD (compatibilidad descompuesta).

What is NFKC (Compatibility Composition)?

Forma de Normalización KC: descomposición de compatibilidad seguida de composición canónica. Fusiona caracteres visualmente similares (ﬁ→fi, ²→2, Ⅳ→IV). Usada para la comparación de identificadores.

What is NFKD (Compatibility Decomposition)?

Forma de Normalización KD: descomposición de compatibilidad sin recomponer. La normalización más agresiva, que pierde la mayor cantidad de información de formato.

Propiedades

Equivalencia de compatibilidad

Dos secuencias de caracteres con el mismo contenido abstracto que pueden diferir en apariencia. Más amplio que la equivalencia canónica. Ejemplo: ﬁ ≈ fi, ² ≈ 2.

2022-05-16 · Updated 2024-10-01

What Is Compatibility Equivalence?

Two Unicode strings are compatibility equivalent if they represent semantically similar content but may differ in appearance or formatting. Compatibility equivalence is weaker than canonical equivalence: canonically equivalent strings are always compatibility equivalent, but not vice versa.

Common compatibility equivalences include:

The ligature ﬁ (U+FB01, fi LIGATURE) ≈ fi (f + i separately)
The superscript ² (U+00B2) ≈ 2 (U+0032)
The fullwidth Ａ (U+FF21) ≈ A (U+0041)
The fraction ½ (U+00BD) in NFKD → 1 ⁄ 2 (sequence of three characters)
The circled digit ① (U+2460) ≈ 1 (U+0031)

Compatibility Normalization Forms

Form	Description
NFKD	Apply compatibility decomposition; apply canonical ordering
NFKC	Apply NFKD, then canonically compose

import unicodedata

examples = [
    ("\uFB01", "fi ligature"),         # ﬁ
    ("\u00B2", "superscript 2"),       # ²
    ("\uFF21", "fullwidth A"),         # Ａ
    ("\u2460", "circled digit 1"),     # ①
    ("\u00BD", "vulgar fraction 1/2"), # ½
]

for char, label in examples:
    nfc  = unicodedata.normalize("NFC",  char)
    nfkc = unicodedata.normalize("NFKC", char)
    nfd  = unicodedata.normalize("NFD",  char)
    nfkd = unicodedata.normalize("NFKD", char)
    print(f"  {char}  ({label})")
    print(f"    NFC  len={len(nfc)}   NFKC={nfkc!r} len={len(nfkc)}")
    print(f"    NFD  len={len(nfd)}   NFKD={[f'U+{ord(c):04X}' for c in nfkd]}")

# ﬁ  NFC len=1  NFKC='fi' len=2
# ²  NFC len=1  NFKC='2'  len=1
# Ａ  NFC len=1  NFKC='A'  len=1
# ①  NFC len=1  NFKC='1'  len=1

When to Use NFKC vs NFC

Use NFC when you want to preserve formatting distinctions: a superscript 2 and a plain 2 are different in a math formula. Use NFKC when you want semantic comparison, ignoring presentational variants: a search engine should return results for "fi" when the user types "ﬁle". Python uses NFKC for identifier normalization (PEP 3131), so ﬁle and file are the same identifier in Python 3.

Caution: NFKC is lossy. Applying it to 2² produces 22, discarding the superscript meaning. Never apply NFKC to content where formatting carries semantic information.

Quick Facts

Property	Value
Concept	Compatibility equivalence
Normalization forms	NFKD, NFKC
Python function	`unicodedata.normalize("NFKC", s)` / `"NFKD"`
Lossy?	Yes — formatting distinctions are discarded
Python identifier normalization	NFKC (PEP 3131)
Search engine use	NFKC for case-folded token normalization
Spec reference	Unicode Standard Annex #15 (UAX #15)

Términos relacionados

Equivalencia canónica Normalización NFKC (Compatibility Composition) NFKD (Compatibility Decomposition)

Más en Propiedades

Alias de nombre

Nombres alternativos para los caracteres, ya que los nombres de Unicode no …

Bloque

Rango contiguo de puntos de código con nombre (por ejemplo, Basic Latin …

Categoría bidireccional

Propiedad que determina cómo se comporta un carácter en texto bidireccional (LTR, …

Categoría general

Clasificación de cada punto de código en una de 30 categorías (Lu, …

Clase de combinación

Valor numérico (0–254) que controla el orden de los signos combinantes durante …

Clúster de grafemas

El «carácter» percibido por el usuario: lo que parece una sola unidad. …

Conversión de mayúsculas y minúsculas

Reglas para convertir caracteres entre mayúsculas, minúsculas y versalitas. Puede depender del …

Descomposición

La descomposición de un carácter en sus partes componentes. La descomposición canónica …

East Asian Width

Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or …

Equivalencia canónica

Dos secuencias de caracteres que son semánticamente idénticas y deben tratarse como …

← Volver al glosario