Unicode-Glossar

150 wesentliche Unicode-Begriffe erklärt — von den Grundlagen der Zeichenkodierung bis zu Sicherheitskonzepten.

Kodierung (17)

ASCII

Amerikanischer Standardcode für den Informationsaustausch. 7-Bit-Kodierung mit 128 Zeichen (0–127): Steuerzeichen, Ziffern, lateinische Buchstaben und grundlegende Symbole.

ASCII Art

Visual art created from text characters, originally limited to the 95 printable ASCII characters. Unicode expands the palette with box-drawing …

Base64

Binary-to-text encoding that represents binary data using 64 ASCII characters (A–Z, a–z, 0–9, +, /). Used for embedding binary data …

Big5

Traditionelle chinesische Zeichenkodierung, die hauptsächlich in Taiwan und Hongkong verwendet wird und etwa 13.000 CJK-Zeichen kodiert.

Byte-Reihenfolge-Markierung

U+FEFF am Anfang eines Textstroms zur Angabe der Byte-Reihenfolge und Kodierung. Für UTF-16/32 erforderlich, für UTF-8 optional und nicht empfohlen.

EBCDIC

Erweiterter binär kodierter Dezimalzeichensatz für den Datenaustausch. IBM-Mainframe-Kodierung mit nicht zusammenhängenden Buchstabenbereichen, noch heute im Bank- und Unternehmensbereich verwendet.

EUC-KR

Koreanische Zeichenkodierung auf Basis von KS X 1001, die Hangul-Silben und Hanja auf Doppelbyte-Sequenzen abbildet.

GB2312 / GB18030

Familie von Vereinfacht-Chinesisch-Kodierungen: GB2312 (6.763 Zeichen) entwickelte sich zu GBK und dann zu GB18030, dem verbindlichen chinesischen Nationalnorm mit Unicode-Kompatibilität.

IANA-Zeichensatz

Offizielles Verzeichnis der Zeichenkodierungsnamen, gepflegt von der IANA und verwendet in HTTP-Content-Type-Headern und MIME (z. B. charset=utf-8).

ISO 8859

Familie von 8-Bit-Einzelbyte-Kodierungen für verschiedene Sprachgruppen. ISO 8859-1 (Latin-1) bildete die Grundlage für die ersten 256 Unicode-Codepunkte.

Shift JIS

Japanische Zeichenkodierung, die Einzelbyte-ASCII/JIS-Roman mit Doppelbyte-JIS-X-0208-Kanji kombiniert. Wird noch in japanischen Legacy-Systemen verwendet.

UCS-2

Veraltete Festlängen-Kodierung mit 2 Bytes, die nur den BMP (U+0000–U+FFFF) abdeckt. Vorgänger von UTF-16, der keine ergänzenden Zeichen darstellen kann.

UTF-16

Variabel lange Unicode-Kodierung mit 2 oder 4 Bytes (1 oder 2 Code-Einheiten à 16 Bit). Wird intern von Java, JavaScript …

UTF-32

Festlängen-Unicode-Kodierung mit genau 4 Bytes pro Zeichen. Einfach, aber speicherineffizient; wird intern von Python 3 (CPython) verwendet.

UTF-8

Variabel lange Unicode-Kodierung, die 1–4 Bytes pro Zeichen verwendet. Die dominante Kodierung im Web (98 %+ der Websites) mit vollständiger …

Windows-1252

Microsofts Obermenge von ISO 8859-1, ergänzt um typografische Anführungszeichen, Gedankenstrich und Euro-Zeichen im Bereich 0x80–0x9F. Die häufigste veraltete „lateinische" Kodierung.

Zeichenkodierung

Ein System, das Zeichen auf Byte-Sequenzen für die digitale Speicherung und Übertragung abbildet. Jede Textdatei hat eine Zeichenkodierung — die …

Unicode-Standard (25)

Abstraktes Zeichen

Eine Informationseinheit zur Organisation, Steuerung oder Darstellung von Textdaten — die konzeptionelle Einheit, bevor sie einen Codepunkt erhält.

Basic Multilingual Plane (BMP)

Ebene 0 (U+0000–U+FFFF) mit den am häufigsten verwendeten Zeichen, darunter Lateinisch, Griechisch, Kyrillisch, CJK, Arabisch und die meisten Symbole. Zeichen …

CJK

Chinesisch, Japanisch und Koreanisch — der Sammelbegriff für den vereinheitlichten Han-Ideogramm-Block und verwandte Schriften in Unicode. CJK Unified Ideographs enthält …

Codeeinheit

Die kleinste Kodierungseinheit: ein 8-Bit-Byte in UTF-8, ein 16-Bit-Wort in UTF-16, ein 32-Bit-Wort in UTF-32. Ein einzelnes Zeichen kann mehrere …

Codepunkt

Ein numerischer Wert im Unicode-Coderaum (U+0000 bis U+10FFFF), geschrieben als U+XXXX. Nicht alle Codepunkte sind Zeichen zugewiesen.

Coderaum

Der vollständige Bereich möglicher Unicode-Codepunkte: U+0000 bis U+10FFFF (insgesamt 1.114.112), aufgeteilt in 17 Ebenen mit je 65.536 Codepunkten.

Ebene

Ein zusammenhängender Block von 65.536 Codepunkten. Unicode hat 17 Ebenen (0–16): Ebene 0 ist der BMP, Ebene 1 der SMP …

Ergänzungsebene

Ebenen 1–16 (U+10000–U+10FFFF) mit Emoji, historischen Schriften, CJK-Erweiterungen und Musiknotation. Erfordert Ersatzzeichenpaare (Surrogate Pairs) in UTF-16.

Ersatzzeichen

Codepunkte U+D800–U+DFFF, ausschließlich für UTF-16-Ersatzzeichenpaare reserviert. Keine gültigen Unicode-Skalarwerte und dürfen nie als eigenständige Zeichen auftreten.

Han Unification

The process of mapping Chinese, Japanese, and Korean ideographs that share a common historical origin to a single Unicode code …

Hangul Jamo

The individual consonant and vowel components (jamo) of the Korean Hangul writing system. Unicode encodes both precomposed Hangul syllables (U+AC00–U+D7A3) …

ISO 10646 / Universal Character Set

Internationaler Standard (ISO/IEC 10646), der mit Unicode synchronisiert ist und denselben Zeichensatz und dieselben Codepunkte definiert, jedoch ohne die zusätzlichen …

Nicht zugewiesener Codepunkt

Ein Codepunkt, dem in keiner Unicode-Version ein Zeichen zugewiesen wurde, kategorisiert als Cn (Nicht zugewiesen). Kann in zukünftigen Versionen zugewiesen …

Nicht-Zeichen

Dauerhaft für den internen Gebrauch reservierte Codepunkte (insgesamt 66): U+FDD0–U+FDEF und U+nFFFE/U+nFFFF für jede Ebene. Im Text gültig, sollten aber …

Privatnutzungsbereich

Reservierte Bereiche, in denen Organisationen eigene Zeichen zuweisen können: BMP-PUA (U+E000–U+F8FF) sowie ergänzende PUAs in den Ebenen 15 und 16.

Reservierter Codepunkt

Ein für zukünftige Standardisierung reservierter Codepunkt, verschieden von Nicht-Zeichen (dauerhaft reserviert) und privaten Verwendungsbereichen (benutzerdefiniert zuweisbar).

Unicode

Universeller Zeichenkodierungsstandard, der jedem Zeichen in jedem Schriftsystem eine eindeutige Nummer (Codepunkt) zuweist. Version 16.0 enthält 154.998 zugewiesene Zeichen.

Unicode Character Database (UCD)

Maschinenlesbare Sammlung von Datendateien, die alle Unicode-Zeicheneigenschaften definiert, darunter UnicodeData.txt, Blocks.txt, Scripts.txt und viele weitere.

Unicode Standard Annex (UAX)

Normative or informative documents that are integral parts of the Unicode Standard. UAX#9 (Bidi Algorithm), UAX#11 (East Asian Width), UAX#15 …

Unicode Technical Report (UTR)

Informational documents published by the Unicode Consortium covering specific topics like security mechanisms (UTR#39), text segmentation (UTR#29), and line breaking …

Unicode-Konsortium

Gemeinnützige Organisation, die den Unicode-Standard entwickelt und pflegt. Zu den Mitgliedern gehören Apple, Google, Microsoft, Meta und viele andere.

Unicode-Skalarwert

Jeder Codepunkt außer den Ersatzzeichen (U+D800–U+DFFF). Der gültige Satz von Werten, die tatsächliche Zeichen darstellen können, insgesamt 1.112.064.

Unicode-Stabilitätsrichtlinie

Garantie, dass ein einmal zugewiesener Codepunkt und Name eines Zeichens niemals geändert werden. Eigenschaften können verfeinert werden, aber Zuweisungen sind …

Unicode-Version

Hauptversionen des Unicode-Standards, die jeweils neue Zeichen, Schriften und Funktionen hinzufügen. Die aktuelle Version ist Unicode 16.0 (September 2025).

Zugewiesenes Zeichen

Ein Codepunkt, dem in einer Unicode-Version ein Zeichen zugewiesen wurde. Ab Unicode 16.0 sind 154.998 von 1.114.112 möglichen Codepunkten belegt.

Eigenschaften (19)

Allgemeine Kategorie

Klassifikation jedes Codepunkts in eine von 30 Kategorien (Lu, Ll, Nd, So usw.), gruppiert in 7 Hauptklassen: Buchstabe, Zeichen, Zahl, …

Bidirektionale Kategorie

Eigenschaft, die bestimmt, wie sich ein Zeichen in bidirektionalem Text verhält (LTR, RTL, schwach, neutral). Wird vom Unicode-Bidirektionalitätsalgorithmus zur Bestimmung …

Block

Ein benannter zusammenhängender Bereich von Codepunkten (z. B. Basic Latin = U+0000–U+007F). Unicode 16.0 definiert 336 Blöcke; jeder Codepunkt gehört …

East Asian Width

Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or Neutral. Wide characters (CJK ideographs, katakana) occupy two …

Graphem-Cluster

Das vom Benutzer wahrgenommene „Zeichen" — was wie eine einzelne Einheit wirkt. Kann aus mehreren Codepunkten bestehen (Basis + Kombinationszeichen …

Groß-/Kleinschreibungszuordnung

Regeln zur Umwandlung von Zeichen zwischen Groß-, Klein- und Titelschreibung. Kann von der Sprache abhängen (türkisches I-Problem) und eins-zu-viele sein …

Interpunktion

Zeichen, die zur Organisation und Verdeutlichung der Schriftsprache verwendet werden: Punkte, Kommas, Striche, Anführungszeichen und mehr. Unicode-Kategorie P umfasst alle …

Joining Type

Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. Types include Right_Joining, Left_Joining, Dual_Joining, and Non_Joining.

Kanonische Äquivalenz

Zwei Zeichenfolgen, die semantisch identisch sind und als gleichwertig behandelt werden müssen. Beispiel: é (U+00E9) ≡ e + ◌́ (U+0065 …

Kombinationsklasse

Numerischer Wert (0–254), der die Reihenfolge von Kombinationszeichen bei der kanonischen Zerlegung steuert und bestimmt, welche Kombinationszeichen umgeordnet werden können.

Kompatibilitätsäquivalenz

Zwei Zeichenfolgen mit demselben abstrakten Inhalt, die sich im Erscheinungsbild unterscheiden können. Umfassender als kanonische Äquivalenz. Beispiel: fi ≈ fi, …

Namens-Alias

Alternative Namen für Zeichen, da Unicode-Namen gemäß der Stabilitätsrichtlinie nicht geändert werden dürfen. Werden für Korrekturen, Abkürzungen und Irrtümer verwendet.

Numerischer Wert

Der numerische Wert eines Zeichens, sofern vorhanden: Ziffernwert (0–9), Dezimalwert oder allgemeiner numerischer Wert (z. B. ½ = 0,5, Ⅳ …

Schriftsystem

Das Schriftsystem, zu dem ein Zeichen gehört (z. B. Lateinisch, Kyrillisch, Han). Unicode 16.0 definiert 168 Schriften; die Script-Eigenschaft ist …

Script Extensions

Unicode property listing all scripts that use a character, broader than the single-valued Script property. Common characters like digits have …

Spiegeleigenschaft

Zeichen, deren Glyphe im RTL-Kontext horizontal gespiegelt werden soll. Beispiele: ( → ), [ → ], { → }, « …

Standardmäßig ignorierbar

Zeichen, die keine sichtbare Wirkung haben sollen und von Prozessen ignoriert werden können, die sie nicht unterstützen, einschließlich Variantenselektoren, Zeichen …

Versionseigenschaft

Die Unicode-Version, in der ein Zeichen erstmals zugewiesen wurde. Nützlich zur Ermittlung der Zeichenunterstützung in verschiedenen Systemen und Softwareversionen.

Zerlegung

Die Abbildung eines Zeichens auf seine Bestandteile. Die kanonische Zerlegung erhält die Bedeutung (é → e + ́); die Kompatibilitätszerlegung …

Algorithmen (15)

Bidirektionaler Algorithmus

Algorithmus zur Bestimmung der Anzeigereihenfolge von Zeichen in Text mit gemischter Schreibrichtung (z. B. Englisch + Arabisch), unter Verwendung von …

Case Folding

Mapping characters to a common case form for case-insensitive comparison. More comprehensive than lowercasing: German ß → ss, Turkish İ …

Grapheme Cluster Boundary

Rules (UAX#29) for determining where one user-perceived character ends and another begins. Critical for cursor movement, text selection, and correctly …

Kompositionsausschluss

Zeichen, die von der kanonischen Komposition (NFC) ausgeschlossen sind, um die Nicht-Starter-Zerlegung zu verhindern und algorithmische Stabilität zu gewährleisten. In …

NFC (Canonical Composition)

Normalisierungsform C: Zerlegen und anschließend kanonisch zusammensetzen, um die kürzeste Form zu erzeugen. Empfohlen für Datenspeicherung und -austausch; die Web-Standardform.

NFD (Canonical Decomposition)

Normalisierungsform D: vollständige Zerlegung ohne Zusammensetzung. Wird vom macOS-HFS+-Dateisystem verwendet. é (U+00E9) → e + ◌́ (U+0065 + U+0301).

NFKC (Compatibility Composition)

Normalisierungsform KC: Kompatibilitätszerlegung gefolgt von kanonischer Zusammensetzung. Führt visuell ähnliche Zeichen zusammen (fi→fi, ²→2, Ⅳ→IV). Wird für den Bezeichnervergleich verwendet.

NFKD (Compatibility Decomposition)

Normalisierungsform KD: Kompatibilitätszerlegung ohne Zusammensetzung. Die aggressivste Normalisierung mit dem höchsten Verlust an Formatierungsinformationen.

Normalisierung

Prozess der Umwandlung von Unicode-Text in eine standardisierte kanonische Form. Vier Formen: NFC (zusammengesetzt), NFD (zerlegt), NFKC (Kompatibilität zusammengesetzt), NFKD …

Satzgrenze

Die Position zwischen Sätzen gemäß den Unicode-Regeln. Komplexer als das bloße Aufteilen nach Punkten — behandelt Abkürzungen (Hrn.), Auslassungspunkte (...) …

Sortieralgorithmus

Standardalgorithmus zum Vergleichen und Sortieren von Unicode-Zeichenketten mittels mehrstufigem Vergleich: Grundzeichen → Akzente → Groß-/Kleinschreibung → Tiebreaker. Sprachlich anpassbar.

String Comparison

Comparing Unicode strings requires normalization (NFC/NFD) and optionally collation (locale-aware sorting). Binary comparison of code points alone gives incorrect results …

Textsegmentierung

Algorithmen zum Auffinden von Grenzen im Text: Graphem-Cluster-, Wort- und Satzgrenzen. Entscheidend für Cursorbewegung, Textauswahl und Textverarbeitung.

Wortgrenze

Die Position zwischen Wörtern gemäß den Unicode-Worttrennungsregeln. Keine einfache Aufteilung nach Leerzeichen — behandelt CJK (ohne Leerzeichen), Kontraktionen und Zahlen …

Zeilenumbruch-Algorithmus

Regeln zur Bestimmung von Zeilenumbruchpositionen im Text unter Berücksichtigung von Zeicheneigenschaften, CJK-Wortgrenzen und Umbruchmöglichkeiten.

Typografie (19)

Anführungszeichen

Gepaarte Satzzeichen, die direkte Rede oder Zitate einschließen. Unicode enthält gerade Anführungszeichen (""), typografische (""), Guillemets (« »), CJK-Klammern (「」) …

Auslassungspunkte

U+2026 HORIZONTALE AUSLASSUNGSPUNKTE (…). Ein einzelnes Zeichen, das drei Punkte ersetzt, typografisch korrekt und als 1 Zeichen statt 3 gezählt.

Breitenloses Zeichen

Zeichen mit der Vorschubbreite null — beim Rendern unsichtbar, aber das Textverhalten beeinflussend. Umfasst ZWSP (Wortumbruch), ZWJ (Verbindung), ZWNJ (Verbindung …

CSS unicode-range

CSS @font-face descriptor specifying which Unicode code points a font should cover. Enables downloading only the font subset needed for …

Diakritisches Zeichen

Ein Zeichen, das einem Buchstaben hinzugefügt wird, um Aussprache oder Bedeutung zu ändern. Kann vorkombiniert (é U+00E9) oder kombinierend (e …

Em / En (Typografische Einheiten)

Em: eine Breite gleich der Schriftgröße. En: die Hälfte eines Em. Werden verwendet, um die Breite des Geviertstriches, des Em-Leerzeichens, …

Font Fallback

The mechanism by which a rendering engine substitutes glyphs from a secondary font when the primary font lacks coverage for …

Gedankenstrich

Satzzeichen, die zum Trennen von Satzteilen oder zur Angabe von Bereichen verwendet werden. Unicode definiert mehrere Striche: Bindestrich (‐), Halbgeviertstrich …

Geschütztes Leerzeichen

U+00A0. Ein Leerzeichen, das einen Zeilenumbruch an seiner Position verhindert. HTML:  . Wird zwischen Zahlen und Einheiten (100 km), in …

Glyphe

Die visuelle Darstellung eines Zeichens, wie sie von einer Schriftart gerendert wird. Ein Zeichen kann mehrere Glyphen haben (Ligaturen, kontextuelle …

Kapitälchen

Großbuchstabenformen in der Höhe von Kleinbuchstaben. CSS: font-variant: small-caps. Unicode enthält auch echte Kapitälchen im Lateinischen Erweiterungsblock (ᴀ–ᴢ).

Kombinationszeichen

Ein Zeichen, das sich an das vorhergehende Basiszeichen anhängt, um es zu verändern. Allgemeine Kategorie: Mn (nicht überstehend), Mc (überstehend …

Laufweite

Anpassung des Abstands zwischen bestimmten Zeichenpaaren für visuelle Harmonie (z. B. AV, To, LT). Ein typografisches Merkmal, kein Unicode-Konzept, beeinflusst …

Leerzeichen

Zeichen, die horizontalen oder vertikalen Raum darstellen, aber keine sichtbare Glyphe besitzen. Unicode definiert mehr als 17 Leerzeichen mit unterschiedlichen …

Ligatur

Zwei oder mehr Zeichen, die zu einer einzigen Glyphe zusammengefasst werden. Kann typografisch sein (fi → fi via OpenType) oder …

OpenType

Modern font format developed by Microsoft and Adobe supporting up to 65,535 glyphs, advanced typographic features (ligatures, alternates, kerning), and …

RTL (Right-to-Left)

Textrichtung, bei der Zeichen von rechts nach links fließen. Wird von Arabisch, Hebräisch, Thaana und anderen Schriften verwendet; erfordert den …

Schriftart

Eine spezifische Implementierung eines Schriftschnitts in einer bestimmten Größe, Stärke und Stil. In der digitalen Typografie eine Schriftdatei (TTF, OTF, …

Web Fonts

Fonts downloaded by the browser to render text, declared via CSS @font-face. WOFF2 is the standard format. Unicode subsetting and …

Eingabemethoden (9)

Alt-Code

Windows-Eingabemethode mit Alt + Ziffernblocktasten zur Eingabe von Zeichen anhand ihrer Codepage-Nummer (Alt+0169 → ©, Alt+0176 → °). Beschränkt auf …

Character Palette

A system-level tool for browsing and inserting Unicode characters. macOS Character Viewer (Ctrl+Cmd+Space), Windows Character Map (charmap.exe), and Linux gucharmap …

Compose-Taste

Eine Taste (normalerweise Rechts-Alt oder benutzerdefiniert), die eine Mehrfastasten-Kompositionssequenz startet. Linux/Unix-Funktion: Compose + a + e → æ. Konfigurierbar über …

Hexadezimaleingabe

Direkte Eingabe von Unicode-Codepunkten durch Tippen des Hexadezimalwerts. Mac: Option + Hex + Loslassen. Windows: Hex tippen, dann Alt+X in …

Input Method Editor (IME)

Softwarekomponente, die die Eingabe komplexer Zeichen (CJK, Koreanisch usw.) über eine Standardtastatur ermöglicht, indem Tastenfolgen über phonetische oder strukturelle Entsprechung …

Tote Taste

Eine Taste, die keine sofortige Ausgabe erzeugt, sondern den nächsten Tastenanschlag modifiziert. Wird für Diakritika verwendet: ` dann e ergibt …

Unicode-Eingabemethode

Jede Methode zur Eingabe von Zeichen anhand ihres Unicode-Codepunkts: Hexadezimaleingabe (Mac), U+XXXX-Eingabe über Strg+Umschalt+U (Linux) oder Alt+X (Windows-Anwendungen).

Zeichenauswahl

UI-Komponente (nativ oder webbasiert) zum visuellen Durchsuchen und Auswählen von Zeichen. Emoji-Auswahldialoge auf Mobilgeräten sind das häufigste Beispiel.

Zeichentabelle

Grafisches Hilfsprogramm zum Durchsuchen und Einfügen von Unicode-Zeichen. Windows: charmap.exe. Mac: Zeichenübersicht (Control+Command+Leertaste). Linux: gucharmap.

Web & HTML (16)

Benannte Zeichenreferenz

HTML-Entität mit einem menschenlesbaren Namen: © → ©, — → —. HTML5 definiert 2.231 benannte Referenzen; sie sind zwischen Groß- …

Content-Type-Zeichensatz

HTTP-Header-Parameter, der die Zeichenkodierung einer Antwort deklariert (Content-Type: text/html; charset=utf-8). Überschreibt alle dokumentinternen Kodierungsdeklarationen.

CSS Text Direction

CSS properties (direction, writing-mode, unicode-bidi) controlling text layout direction. Works with Unicode Bidi Algorithm for mixed LTR/RTL content in web …

CSS-content-Eigenschaft

CSS-Eigenschaft, die generierten Inhalt über die Pseudoelemente ::before und ::after mit Unicode-Escapes einfügt: content: "\2713" fügt ✓ ein.

Emoji-Darstellung

Darstellung eines Zeichens als farbiges Emoji-Glyph, typischerweise mit Variationsselektor 16 (U+FE0F). Einige Zeichen haben standardmäßig die Emoji-Darstellung, andere die Textdarstellung.

HTML-Entität

Eine textuelle Darstellung eines Zeichens in HTML. Drei Formen: benannt (&), dezimal (&) und hexadezimal (&). Unerlässlich für Zeichen, die …

Internationalized Domain Name (IDN)

Domainnamen mit Nicht-ASCII-Unicode-Zeichen, intern als Punycode (xn--...) gespeichert, aber den Nutzern in Unicode angezeigt. Sicherheitsrisiko: Homograph-Angriffe.

JavaScript Intl API

ECMAScript Internationalization API providing locale-aware string comparison (Collator), number formatting (NumberFormat), date formatting (DateTimeFormat), and segmentation (Segmenter).

Numerische Zeichenreferenz

HTML-Entität, die die Unicode-Codepunktnummer verwendet: dezimal (© → ©) oder hexadezimal (© → ©). Funktioniert für jedes Unicode-Zeichen, anders als …

Prozentkodierung (URL-Kodierung)

Kodierung von Nicht-ASCII- und reservierten Zeichen in URLs durch Ersetzen jedes Bytes mit %XX. UTF-8 wird zuerst verwendet, dann wird …

Punycode

ASCII-kompatible Kodierung von Unicode-Domainnamen, bei der internationalisierte Labels in xn--präfixierte ASCII-Zeichenketten umgewandelt werden. münchen.de → xn--mnchen-3ya.de.

Textdarstellung

Darstellung eines Zeichens als einfaches monochromes Textglyph anstelle eines farbigen Emoji, typischerweise mit Variationsselektor 15 (U+FE0E) zur Überschreibung der Standard-Emoji-Darstellung.

Unicode in CSS

CSS supports Unicode via escape sequences (\2713 for ✓), the content property for generated text, unicode-range for font subsetting, and …

Variationsselektor

Zeichen (U+FE00–U+FE0F, U+E0100–U+E01EF), die eine bestimmte Glyphenvariante auswählen. VS15 (U+FE0E) = Textdarstellung, VS16 (U+FE0F) = Emoji-Darstellung.

Wortverbinder

U+2060. Ein Zeichen ohne Breite, das einen Zeilenumbruch verhindert. Der moderne Ersatz für U+FEFF (BOM) als geschütztes Leerzeichen ohne Breite.

XML-Zeichenreferenz

Die XML-Version numerischer Zeichenreferenzen: ✓ oder ✓. XML hat nur 5 benannte Entitäten (& < > " '), während HTML5 …

Programmierung & Entwicklung (13)

Ersatzzeichen

U+FFFD (�). Wird angezeigt, wenn ein Decoder ungültige Bytesequenzen antrifft — das universelle Symbol für „beim Dekodieren ist etwas schiefgelaufen".

Ersatzzeichenpaar

Zwei 16-Bit-Codeeinheiten (ein High-Surrogate U+D800–U+DBFF + Low-Surrogate U+DC00–U+DFFF), die zusammen ein ergänzendes Zeichen in UTF-16 kodieren. 😀 = D83D DE00.

Java Unicode

Java strings use UTF-16 internally. char is 16-bit (only BMP). For supplementary characters, use codePointAt() and Character.toChars(). Java's \uXXXX escapes …

Kodierung / Dekodierung

Kodierung wandelt Zeichen in Bytes um (str.encode('utf-8')); Dekodierung wandelt Bytes in Zeichen um (bytes.decode('utf-8')). Korrekte Anwendung verhindert Mojibake.

Mojibake

Unlesbarer Text, der entsteht, wenn Bytes mit der falschen Kodierung dekodiert werden. Japanischer Begriff (文字化け). Beispiel: 'café' als UTF-8 gespeichert, …

Nullzeichen

U+0000 (NUL). Das erste Unicode/ASCII-Zeichen, als Zeichenketten-Terminator in C/C++ verwendet. Sicherheitsrisiko: Null-Byte-Injektion kann Zeichenketten in anfälligen Systemen abschneiden.

Python Unicode

Python 3 uses Unicode strings by default (str = UTF-8 internally via PEP 393). Key features: \N{name} escapes, unicodedata module, …

Regulärer Unicode-Ausdruck

Regex-Muster, die Unicode-Eigenschaften nutzen: \p{L} (beliebiger Buchstabe), \p{Script=Greek} (griechisches Skript), \p{Emoji}. Die Unterstützung variiert je nach Sprache und Regex-Engine.

Rust Unicode

Rust strings (str/String) are guaranteed valid UTF-8. char type represents a Unicode scalar value (4 bytes). Iteration via .chars() yields …

Stringlängen-Mehrdeutigkeit

Die „Länge" einer Unicode-Zeichenkette hängt von der Einheit ab: Codeeinheiten (JavaScript .length), Codepunkte (Python len()) oder Graphem-Cluster. 👨‍👩‍👧‍👦 = 7 …

Unicode-Escape-Sequenz

Syntax zur Darstellung von Unicode-Zeichen im Quellcode. Variiert je nach Sprache: \u2713 (Python/Java/JS), \u{2713} (JS/Ruby/Rust), \U00012345 (Python/C).

Unsichtbares Zeichen

Jedes Zeichen ohne sichtbare Glyphe: Leerzeichen, Zeichen ohne Breite, Steuerzeichen und Formatierungszeichen. Kann Sicherheitsprobleme wie Spoofing und Text-Smuggling verursachen.

Zeichenkette

Eine Zeichenfolge in einer Programmiersprache. Die interne Darstellung variiert: UTF-8 (Go, Rust, neuere Python-Builds), UTF-16 (Java, JavaScript, C#) oder UTF-32 …

Sicherheit (10)

Bidi Text Attack

Exploiting Unicode bidirectional control characters to disguise malicious code or filenames. The 'Trojan Source' attack (CVE-2021-42574) uses bidi overrides to …

Bidi-Override-Angriff

Verwendung von Unicode-Bidirektional-Override-Zeichen (U+202A–U+202E, U+2066–U+2069) zur Verschleierung schädlicher Dateinamen oder Code. 'readme‮fdp.exe' wird als 'readmeexe.pdf' angezeigt.

Erkennung gemischter Schriftsysteme

Erkennung von Text, der Zeichen aus verschiedenen Schriften mischt (z. B. Lateinisch + Kyrillisch). Hauptverteidigung gegen Homograph-Angriffe; Browser verwenden dies, …

Homoglyph

Zeichen aus verschiedenen Schriften, die identisch oder sehr ähnlich aussehen, wie lateinisches 'a' und kyrillisches 'а'. Werden bei Phishing-, Spoofing- …

IDN-Homograph-Angriff

Verwendung visuell ähnlicher Unicode-Zeichen in Domainnamen, um legitime Seiten vorzutäuschen. аpple.com (kyrillisches а) sieht aus wie apple.com. Browser verteidigen sich …

Normalization Attack

Exploiting Unicode normalization to bypass security filters. Input validated before normalization may change form after: 'fi' (U+FB01) normalizes to 'fi', …

Unicode-Spoofing

Verwendung von Unicode-Funktionen zur Täuschung von Nutzern: Homoglyphen für gefälschte Domains, Bidi-Overrides für gefälschte Dateierweiterungen oder unsichtbare Zeichen für versteckten …

Verwechselbares Zeichen

Unicodes offizieller Begriff für Zeichenpaare, die visuell verwechselt werden können, definiert in confusables.txt (UCD). Breiter als Homoglyphen — umfasst auch …

Zero Width Joiner (ZWJ)

U+200D. Fordert das Verbinden benachbarter Zeichen an. Grundlegend für Emoji-Sequenzen (👩+ZWJ+💻=👩‍💻). In indischen Schriften fordert es die Ligaturbildung an. Kann …

Zero Width Non-Joiner (ZWNJ)

U+200C. Verhindert das Verbinden benachbarter Zeichen. Unverzichtbar im Persischen/Arabischen für korrekte Buchstabenformen und im Devanagari zur Verhinderung von Ligaturen.

Emoji (6)

Sonstiges (1)