What is Normalisierung?

Prozess der Umwandlung von Unicode-Text in eine standardisierte kanonische Form. Vier Formen: NFC (zusammengesetzt), NFD (zerlegt), NFKC (Kompatibilität zusammengesetzt), NFKD (Kompatibilität zerlegt).

What is NFKC (Compatibility Composition)?

Normalisierungsform KC: Kompatibilitätszerlegung gefolgt von kanonischer Zusammensetzung. Führt visuell ähnliche Zeichen zusammen (ﬁ→fi, ²→2, Ⅳ→IV). Wird für den Bezeichnervergleich verwendet.

What is NFKD (Compatibility Decomposition)?

Normalisierungsform KD: Kompatibilitätszerlegung ohne Zusammensetzung. Die aggressivste Normalisierung mit dem höchsten Verlust an Formatierungsinformationen.

Eigenschaften

Kompatibilitätsäquivalenz

Zwei Zeichenfolgen mit demselben abstrakten Inhalt, die sich im Erscheinungsbild unterscheiden können. Umfassender als kanonische Äquivalenz. Beispiel: ﬁ ≈ fi, ² ≈ 2.

2022-05-16 · Updated 2024-10-01

What Is Compatibility Equivalence?

Two Unicode strings are compatibility equivalent if they represent semantically similar content but may differ in appearance or formatting. Compatibility equivalence is weaker than canonical equivalence: canonically equivalent strings are always compatibility equivalent, but not vice versa.

Common compatibility equivalences include:

The ligature ﬁ (U+FB01, fi LIGATURE) ≈ fi (f + i separately)
The superscript ² (U+00B2) ≈ 2 (U+0032)
The fullwidth Ａ (U+FF21) ≈ A (U+0041)
The fraction ½ (U+00BD) in NFKD → 1 ⁄ 2 (sequence of three characters)
The circled digit ① (U+2460) ≈ 1 (U+0031)

Compatibility Normalization Forms

Form	Description
NFKD	Apply compatibility decomposition; apply canonical ordering
NFKC	Apply NFKD, then canonically compose

import unicodedata

examples = [
    ("\uFB01", "fi ligature"),         # ﬁ
    ("\u00B2", "superscript 2"),       # ²
    ("\uFF21", "fullwidth A"),         # Ａ
    ("\u2460", "circled digit 1"),     # ①
    ("\u00BD", "vulgar fraction 1/2"), # ½
]

for char, label in examples:
    nfc  = unicodedata.normalize("NFC",  char)
    nfkc = unicodedata.normalize("NFKC", char)
    nfd  = unicodedata.normalize("NFD",  char)
    nfkd = unicodedata.normalize("NFKD", char)
    print(f"  {char}  ({label})")
    print(f"    NFC  len={len(nfc)}   NFKC={nfkc!r} len={len(nfkc)}")
    print(f"    NFD  len={len(nfd)}   NFKD={[f'U+{ord(c):04X}' for c in nfkd]}")

# ﬁ  NFC len=1  NFKC='fi' len=2
# ²  NFC len=1  NFKC='2'  len=1
# Ａ  NFC len=1  NFKC='A'  len=1
# ①  NFC len=1  NFKC='1'  len=1

When to Use NFKC vs NFC

Use NFC when you want to preserve formatting distinctions: a superscript 2 and a plain 2 are different in a math formula. Use NFKC when you want semantic comparison, ignoring presentational variants: a search engine should return results for "fi" when the user types "ﬁle". Python uses NFKC for identifier normalization (PEP 3131), so ﬁle and file are the same identifier in Python 3.

Caution: NFKC is lossy. Applying it to 2² produces 22, discarding the superscript meaning. Never apply NFKC to content where formatting carries semantic information.

Quick Facts

Property	Value
Concept	Compatibility equivalence
Normalization forms	NFKD, NFKC
Python function	`unicodedata.normalize("NFKC", s)` / `"NFKD"`
Lossy?	Yes — formatting distinctions are discarded
Python identifier normalization	NFKC (PEP 3131)
Search engine use	NFKC for case-folded token normalization
Spec reference	Unicode Standard Annex #15 (UAX #15)

Mehr in Eigenschaften

Allgemeine Kategorie

Klassifikation jedes Codepunkts in eine von 30 Kategorien (Lu, Ll, Nd, So …

Bidirektionale Kategorie

Eigenschaft, die bestimmt, wie sich ein Zeichen in bidirektionalem Text verhält (LTR, …

Block

Ein benannter zusammenhängender Bereich von Codepunkten (z. B. Basic Latin = U+0000–U+007F). …

East Asian Width

Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or …

Graphem-Cluster

Das vom Benutzer wahrgenommene „Zeichen" — was wie eine einzelne Einheit wirkt. …

Groß-/Kleinschreibungszuordnung

Regeln zur Umwandlung von Zeichen zwischen Groß-, Klein- und Titelschreibung. Kann von …

Interpunktion

Zeichen, die zur Organisation und Verdeutlichung der Schriftsprache verwendet werden: Punkte, Kommas, …

Joining Type

Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. …

Kanonische Äquivalenz

Zwei Zeichenfolgen, die semantisch identisch sind und als gleichwertig behandelt werden müssen. …

Kombinationsklasse

Numerischer Wert (0–254), der die Reihenfolge von Kombinationszeichen bei der kanonischen Zerlegung …

← Zurück zum Glossar