What is Équivalence canonique?

Deux séquences de caractères sémantiquement identiques qui doivent être traitées comme égales. Exemple : é (U+00E9) ≡ e + ◌́ (U+0065 + U+0301).

What is Normalisation?

Processus de conversion du texte Unicode en une forme canonique standard. Quatre formes : NFC (composée), NFD (décomposée), NFKC (compatibilité composée), NFKD (compatibilité décomposée).

What is NFKC (Compatibility Composition)?

Forme de normalisation KC : décomposition de compatibilité puis composition canonique. Fusionne les caractères visuellement similaires (ﬁ→fi, ²→2, Ⅳ→IV). Utilisée pour la comparaison d'identifiants.

What is NFKD (Compatibility Decomposition)?

Forme de normalisation KD : décomposition de compatibilité sans recomposition. La normalisation la plus agressive, perdant le plus d'informations de mise en forme.

Propriétés

Équivalence de compatibilité

Deux séquences de caractères ayant le même contenu abstrait mais pouvant différer en apparence. Plus large que l'équivalence canonique. Exemple : ﬁ ≈ fi, ² ≈ 2.

2022-05-16 · Updated 2024-10-01

What Is Compatibility Equivalence?

Two Unicode strings are compatibility equivalent if they represent semantically similar content but may differ in appearance or formatting. Compatibility equivalence is weaker than canonical equivalence: canonically equivalent strings are always compatibility equivalent, but not vice versa.

Common compatibility equivalences include:

The ligature ﬁ (U+FB01, fi LIGATURE) ≈ fi (f + i separately)
The superscript ² (U+00B2) ≈ 2 (U+0032)
The fullwidth Ａ (U+FF21) ≈ A (U+0041)
The fraction ½ (U+00BD) in NFKD → 1 ⁄ 2 (sequence of three characters)
The circled digit ① (U+2460) ≈ 1 (U+0031)

Compatibility Normalization Forms

Form	Description
NFKD	Apply compatibility decomposition; apply canonical ordering
NFKC	Apply NFKD, then canonically compose

import unicodedata

examples = [
    ("\uFB01", "fi ligature"),         # ﬁ
    ("\u00B2", "superscript 2"),       # ²
    ("\uFF21", "fullwidth A"),         # Ａ
    ("\u2460", "circled digit 1"),     # ①
    ("\u00BD", "vulgar fraction 1/2"), # ½
]

for char, label in examples:
    nfc  = unicodedata.normalize("NFC",  char)
    nfkc = unicodedata.normalize("NFKC", char)
    nfd  = unicodedata.normalize("NFD",  char)
    nfkd = unicodedata.normalize("NFKD", char)
    print(f"  {char}  ({label})")
    print(f"    NFC  len={len(nfc)}   NFKC={nfkc!r} len={len(nfkc)}")
    print(f"    NFD  len={len(nfd)}   NFKD={[f'U+{ord(c):04X}' for c in nfkd]}")

# ﬁ  NFC len=1  NFKC='fi' len=2
# ²  NFC len=1  NFKC='2'  len=1
# Ａ  NFC len=1  NFKC='A'  len=1
# ①  NFC len=1  NFKC='1'  len=1

When to Use NFKC vs NFC

Use NFC when you want to preserve formatting distinctions: a superscript 2 and a plain 2 are different in a math formula. Use NFKC when you want semantic comparison, ignoring presentational variants: a search engine should return results for "fi" when the user types "ﬁle". Python uses NFKC for identifier normalization (PEP 3131), so ﬁle and file are the same identifier in Python 3.

Caution: NFKC is lossy. Applying it to 2² produces 22, discarding the superscript meaning. Never apply NFKC to content where formatting carries semantic information.

Quick Facts

Property	Value
Concept	Compatibility equivalence
Normalization forms	NFKD, NFKC
Python function	`unicodedata.normalize("NFKC", s)` / `"NFKD"`
Lossy?	Yes — formatting distinctions are discarded
Python identifier normalization	NFKC (PEP 3131)
Search engine use	NFKC for case-folded token normalization
Spec reference	Unicode Standard Annex #15 (UAX #15)

Termes associés

Équivalence canonique Normalisation NFKC (Compatibility Composition) NFKD (Compatibility Decomposition)

Plus dans Propriétés

Alias de nom

Noms alternatifs pour les caractères, les noms Unicode ne pouvant pas changer …

Bloc

Plage contiguë nommée de points de code (par ex. Basic Latin = …

Catégorie bidirectionnelle

Propriété déterminant le comportement d'un caractère dans un texte bidirectionnel (LTR, RTL, …

Catégorie générale

Classification de chaque point de code dans l'une des 30 catégories (Lu, …

Classe de combinaison

Valeur numérique (0–254) contrôlant l'ordre des marques combinantes lors de la décomposition …

Correspondance de casse

Règles de conversion des caractères entre majuscules, minuscules et casse de titre. …

Décomposition

La décomposition d'un caractère en ses éléments constitutifs. La décomposition canonique préserve …

East Asian Width

Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or …

Grappe de graphèmes

Le « caractère » perçu par l'utilisateur — ce qui ressemble à …

Ignorable par défaut

Caractères ne devant avoir aucun effet visible et pouvant être ignorés par …

← Retour au glossaire