Unicode-Glossar
150 wesentliche Unicode-Begriffe erklärt — von den Grundlagen der Zeichenkodierung bis zu Sicherheitskonzepten.
Kodierung (17)
Amerikanischer Standardcode für den Informationsaustausch. 7-Bit-Kodierung mit 128 Zeichen (0–127): Steuerzeichen, Ziffern, lateinische Buchstaben und grundlegende Symbole.
Visual art created from text characters, originally limited to the 95 printable ASCII characters. Unicode expands the palette with box-drawing …
Binary-to-text encoding that represents binary data using 64 ASCII characters (A–Z, a–z, 0–9, +, /). Used for embedding binary data …
Traditionelle chinesische Zeichenkodierung, die hauptsächlich in Taiwan und Hongkong verwendet wird und etwa 13.000 CJK-Zeichen kodiert.
U+FEFF am Anfang eines Textstroms zur Angabe der Byte-Reihenfolge und Kodierung. Für UTF-16/32 erforderlich, für UTF-8 optional und nicht empfohlen.
Erweiterter binär kodierter Dezimalzeichensatz für den Datenaustausch. IBM-Mainframe-Kodierung mit nicht zusammenhängenden Buchstabenbereichen, noch heute im Bank- und Unternehmensbereich verwendet.
Koreanische Zeichenkodierung auf Basis von KS X 1001, die Hangul-Silben und Hanja auf Doppelbyte-Sequenzen abbildet.
Familie von Vereinfacht-Chinesisch-Kodierungen: GB2312 (6.763 Zeichen) entwickelte sich zu GBK und dann zu GB18030, dem verbindlichen chinesischen Nationalnorm mit Unicode-Kompatibilität.
Offizielles Verzeichnis der Zeichenkodierungsnamen, gepflegt von der IANA und verwendet in HTTP-Content-Type-Headern und MIME (z. B. charset=utf-8).
Familie von 8-Bit-Einzelbyte-Kodierungen für verschiedene Sprachgruppen. ISO 8859-1 (Latin-1) bildete die Grundlage für die ersten 256 Unicode-Codepunkte.
Japanische Zeichenkodierung, die Einzelbyte-ASCII/JIS-Roman mit Doppelbyte-JIS-X-0208-Kanji kombiniert. Wird noch in japanischen Legacy-Systemen verwendet.
Veraltete Festlängen-Kodierung mit 2 Bytes, die nur den BMP (U+0000–U+FFFF) abdeckt. Vorgänger von UTF-16, der keine ergänzenden Zeichen darstellen kann.
Variabel lange Unicode-Kodierung mit 2 oder 4 Bytes (1 oder 2 Code-Einheiten à 16 Bit). Wird intern von Java, JavaScript …
Festlängen-Unicode-Kodierung mit genau 4 Bytes pro Zeichen. Einfach, aber speicherineffizient; wird intern von Python 3 (CPython) verwendet.
Variabel lange Unicode-Kodierung, die 1–4 Bytes pro Zeichen verwendet. Die dominante Kodierung im Web (98 %+ der Websites) mit vollständiger …
Microsofts Obermenge von ISO 8859-1, ergänzt um typografische Anführungszeichen, Gedankenstrich und Euro-Zeichen im Bereich 0x80–0x9F. Die häufigste veraltete „lateinische" Kodierung.
Ein System, das Zeichen auf Byte-Sequenzen für die digitale Speicherung und Übertragung abbildet. Jede Textdatei hat eine Zeichenkodierung — die …
Unicode-Standard (25)
Eine Informationseinheit zur Organisation, Steuerung oder Darstellung von Textdaten — die konzeptionelle Einheit, bevor sie einen Codepunkt erhält.
Ebene 0 (U+0000–U+FFFF) mit den am häufigsten verwendeten Zeichen, darunter Lateinisch, Griechisch, Kyrillisch, CJK, Arabisch und die meisten Symbole. Zeichen …
Chinesisch, Japanisch und Koreanisch — der Sammelbegriff für den vereinheitlichten Han-Ideogramm-Block und verwandte Schriften in Unicode. CJK Unified Ideographs enthält …
Die kleinste Kodierungseinheit: ein 8-Bit-Byte in UTF-8, ein 16-Bit-Wort in UTF-16, ein 32-Bit-Wort in UTF-32. Ein einzelnes Zeichen kann mehrere …
Ein numerischer Wert im Unicode-Coderaum (U+0000 bis U+10FFFF), geschrieben als U+XXXX. Nicht alle Codepunkte sind Zeichen zugewiesen.
Der vollständige Bereich möglicher Unicode-Codepunkte: U+0000 bis U+10FFFF (insgesamt 1.114.112), aufgeteilt in 17 Ebenen mit je 65.536 Codepunkten.
Ein zusammenhängender Block von 65.536 Codepunkten. Unicode hat 17 Ebenen (0–16): Ebene 0 ist der BMP, Ebene 1 der SMP …
Ebenen 1–16 (U+10000–U+10FFFF) mit Emoji, historischen Schriften, CJK-Erweiterungen und Musiknotation. Erfordert Ersatzzeichenpaare (Surrogate Pairs) in UTF-16.
Codepunkte U+D800–U+DFFF, ausschließlich für UTF-16-Ersatzzeichenpaare reserviert. Keine gültigen Unicode-Skalarwerte und dürfen nie als eigenständige Zeichen auftreten.
The process of mapping Chinese, Japanese, and Korean ideographs that share a common historical origin to a single Unicode code …
The individual consonant and vowel components (jamo) of the Korean Hangul writing system. Unicode encodes both precomposed Hangul syllables (U+AC00–U+D7A3) …
Internationaler Standard (ISO/IEC 10646), der mit Unicode synchronisiert ist und denselben Zeichensatz und dieselben Codepunkte definiert, jedoch ohne die zusätzlichen …
Ein Codepunkt, dem in keiner Unicode-Version ein Zeichen zugewiesen wurde, kategorisiert als Cn (Nicht zugewiesen). Kann in zukünftigen Versionen zugewiesen …
Dauerhaft für den internen Gebrauch reservierte Codepunkte (insgesamt 66): U+FDD0–U+FDEF und U+nFFFE/U+nFFFF für jede Ebene. Im Text gültig, sollten aber …
Reservierte Bereiche, in denen Organisationen eigene Zeichen zuweisen können: BMP-PUA (U+E000–U+F8FF) sowie ergänzende PUAs in den Ebenen 15 und 16.
Ein für zukünftige Standardisierung reservierter Codepunkt, verschieden von Nicht-Zeichen (dauerhaft reserviert) und privaten Verwendungsbereichen (benutzerdefiniert zuweisbar).
Universeller Zeichenkodierungsstandard, der jedem Zeichen in jedem Schriftsystem eine eindeutige Nummer (Codepunkt) zuweist. Version 16.0 enthält 154.998 zugewiesene Zeichen.
Maschinenlesbare Sammlung von Datendateien, die alle Unicode-Zeicheneigenschaften definiert, darunter UnicodeData.txt, Blocks.txt, Scripts.txt und viele weitere.
Normative or informative documents that are integral parts of the Unicode Standard. UAX#9 (Bidi Algorithm), UAX#11 (East Asian Width), UAX#15 …
Informational documents published by the Unicode Consortium covering specific topics like security mechanisms (UTR#39), text segmentation (UTR#29), and line breaking …
Gemeinnützige Organisation, die den Unicode-Standard entwickelt und pflegt. Zu den Mitgliedern gehören Apple, Google, Microsoft, Meta und viele andere.
Jeder Codepunkt außer den Ersatzzeichen (U+D800–U+DFFF). Der gültige Satz von Werten, die tatsächliche Zeichen darstellen können, insgesamt 1.112.064.
Garantie, dass ein einmal zugewiesener Codepunkt und Name eines Zeichens niemals geändert werden. Eigenschaften können verfeinert werden, aber Zuweisungen sind …
Hauptversionen des Unicode-Standards, die jeweils neue Zeichen, Schriften und Funktionen hinzufügen. Die aktuelle Version ist Unicode 16.0 (September 2025).
Ein Codepunkt, dem in einer Unicode-Version ein Zeichen zugewiesen wurde. Ab Unicode 16.0 sind 154.998 von 1.114.112 möglichen Codepunkten belegt.
Eigenschaften (19)
Klassifikation jedes Codepunkts in eine von 30 Kategorien (Lu, Ll, Nd, So usw.), gruppiert in 7 Hauptklassen: Buchstabe, Zeichen, Zahl, …
Eigenschaft, die bestimmt, wie sich ein Zeichen in bidirektionalem Text verhält (LTR, RTL, schwach, neutral). Wird vom Unicode-Bidirektionalitätsalgorithmus zur Bestimmung …
Ein benannter zusammenhängender Bereich von Codepunkten (z. B. Basic Latin = U+0000–U+007F). Unicode 16.0 definiert 336 Blöcke; jeder Codepunkt gehört …
Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or Neutral. Wide characters (CJK ideographs, katakana) occupy two …
Das vom Benutzer wahrgenommene „Zeichen" — was wie eine einzelne Einheit wirkt. Kann aus mehreren Codepunkten bestehen (Basis + Kombinationszeichen …
Regeln zur Umwandlung von Zeichen zwischen Groß-, Klein- und Titelschreibung. Kann von der Sprache abhängen (türkisches I-Problem) und eins-zu-viele sein …
Zeichen, die zur Organisation und Verdeutlichung der Schriftsprache verwendet werden: Punkte, Kommas, Striche, Anführungszeichen und mehr. Unicode-Kategorie P umfasst alle …
Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. Types include Right_Joining, Left_Joining, Dual_Joining, and Non_Joining.
Zwei Zeichenfolgen, die semantisch identisch sind und als gleichwertig behandelt werden müssen. Beispiel: é (U+00E9) ≡ e + ◌́ (U+0065 …
Numerischer Wert (0–254), der die Reihenfolge von Kombinationszeichen bei der kanonischen Zerlegung steuert und bestimmt, welche Kombinationszeichen umgeordnet werden können.
Zwei Zeichenfolgen mit demselben abstrakten Inhalt, die sich im Erscheinungsbild unterscheiden können. Umfassender als kanonische Äquivalenz. Beispiel: fi ≈ fi, …
Alternative Namen für Zeichen, da Unicode-Namen gemäß der Stabilitätsrichtlinie nicht geändert werden dürfen. Werden für Korrekturen, Abkürzungen und Irrtümer verwendet.
Der numerische Wert eines Zeichens, sofern vorhanden: Ziffernwert (0–9), Dezimalwert oder allgemeiner numerischer Wert (z. B. ½ = 0,5, Ⅳ …
Das Schriftsystem, zu dem ein Zeichen gehört (z. B. Lateinisch, Kyrillisch, Han). Unicode 16.0 definiert 168 Schriften; die Script-Eigenschaft ist …
Unicode property listing all scripts that use a character, broader than the single-valued Script property. Common characters like digits have …
Zeichen, deren Glyphe im RTL-Kontext horizontal gespiegelt werden soll. Beispiele: ( → ), [ → ], { → }, « …
Zeichen, die keine sichtbare Wirkung haben sollen und von Prozessen ignoriert werden können, die sie nicht unterstützen, einschließlich Variantenselektoren, Zeichen …
Die Unicode-Version, in der ein Zeichen erstmals zugewiesen wurde. Nützlich zur Ermittlung der Zeichenunterstützung in verschiedenen Systemen und Softwareversionen.
Die Abbildung eines Zeichens auf seine Bestandteile. Die kanonische Zerlegung erhält die Bedeutung (é → e + ́); die Kompatibilitätszerlegung …
Algorithmen (15)
Algorithmus zur Bestimmung der Anzeigereihenfolge von Zeichen in Text mit gemischter Schreibrichtung (z. B. Englisch + Arabisch), unter Verwendung von …
Mapping characters to a common case form for case-insensitive comparison. More comprehensive than lowercasing: German ß → ss, Turkish İ …
Rules (UAX#29) for determining where one user-perceived character ends and another begins. Critical for cursor movement, text selection, and correctly …
Zeichen, die von der kanonischen Komposition (NFC) ausgeschlossen sind, um die Nicht-Starter-Zerlegung zu verhindern und algorithmische Stabilität zu gewährleisten. In …
Normalisierungsform C: Zerlegen und anschließend kanonisch zusammensetzen, um die kürzeste Form zu erzeugen. Empfohlen für Datenspeicherung und -austausch; die Web-Standardform.
Normalisierungsform D: vollständige Zerlegung ohne Zusammensetzung. Wird vom macOS-HFS+-Dateisystem verwendet. é (U+00E9) → e + ◌́ (U+0065 + U+0301).
Normalisierungsform KC: Kompatibilitätszerlegung gefolgt von kanonischer Zusammensetzung. Führt visuell ähnliche Zeichen zusammen (fi→fi, ²→2, Ⅳ→IV). Wird für den Bezeichnervergleich verwendet.
Normalisierungsform KD: Kompatibilitätszerlegung ohne Zusammensetzung. Die aggressivste Normalisierung mit dem höchsten Verlust an Formatierungsinformationen.
Prozess der Umwandlung von Unicode-Text in eine standardisierte kanonische Form. Vier Formen: NFC (zusammengesetzt), NFD (zerlegt), NFKC (Kompatibilität zusammengesetzt), NFKD …
Die Position zwischen Sätzen gemäß den Unicode-Regeln. Komplexer als das bloße Aufteilen nach Punkten — behandelt Abkürzungen (Hrn.), Auslassungspunkte (...) …
Standardalgorithmus zum Vergleichen und Sortieren von Unicode-Zeichenketten mittels mehrstufigem Vergleich: Grundzeichen → Akzente → Groß-/Kleinschreibung → Tiebreaker. Sprachlich anpassbar.
Comparing Unicode strings requires normalization (NFC/NFD) and optionally collation (locale-aware sorting). Binary comparison of code points alone gives incorrect results …
Algorithmen zum Auffinden von Grenzen im Text: Graphem-Cluster-, Wort- und Satzgrenzen. Entscheidend für Cursorbewegung, Textauswahl und Textverarbeitung.
Die Position zwischen Wörtern gemäß den Unicode-Worttrennungsregeln. Keine einfache Aufteilung nach Leerzeichen — behandelt CJK (ohne Leerzeichen), Kontraktionen und Zahlen …
Regeln zur Bestimmung von Zeilenumbruchpositionen im Text unter Berücksichtigung von Zeicheneigenschaften, CJK-Wortgrenzen und Umbruchmöglichkeiten.
Typografie (19)
Gepaarte Satzzeichen, die direkte Rede oder Zitate einschließen. Unicode enthält gerade Anführungszeichen (""), typografische (""), Guillemets (« »), CJK-Klammern (「」) …
U+2026 HORIZONTALE AUSLASSUNGSPUNKTE (…). Ein einzelnes Zeichen, das drei Punkte ersetzt, typografisch korrekt und als 1 Zeichen statt 3 gezählt.
Zeichen mit der Vorschubbreite null — beim Rendern unsichtbar, aber das Textverhalten beeinflussend. Umfasst ZWSP (Wortumbruch), ZWJ (Verbindung), ZWNJ (Verbindung …
CSS @font-face descriptor specifying which Unicode code points a font should cover. Enables downloading only the font subset needed for …
Ein Zeichen, das einem Buchstaben hinzugefügt wird, um Aussprache oder Bedeutung zu ändern. Kann vorkombiniert (é U+00E9) oder kombinierend (e …
Em: eine Breite gleich der Schriftgröße. En: die Hälfte eines Em. Werden verwendet, um die Breite des Geviertstriches, des Em-Leerzeichens, …
The mechanism by which a rendering engine substitutes glyphs from a secondary font when the primary font lacks coverage for …
Satzzeichen, die zum Trennen von Satzteilen oder zur Angabe von Bereichen verwendet werden. Unicode definiert mehrere Striche: Bindestrich (‐), Halbgeviertstrich …
U+00A0. Ein Leerzeichen, das einen Zeilenumbruch an seiner Position verhindert. HTML: . Wird zwischen Zahlen und Einheiten (100 km), in …
Die visuelle Darstellung eines Zeichens, wie sie von einer Schriftart gerendert wird. Ein Zeichen kann mehrere Glyphen haben (Ligaturen, kontextuelle …
Großbuchstabenformen in der Höhe von Kleinbuchstaben. CSS: font-variant: small-caps. Unicode enthält auch echte Kapitälchen im Lateinischen Erweiterungsblock (ᴀ–ᴢ).
Ein Zeichen, das sich an das vorhergehende Basiszeichen anhängt, um es zu verändern. Allgemeine Kategorie: Mn (nicht überstehend), Mc (überstehend …
Anpassung des Abstands zwischen bestimmten Zeichenpaaren für visuelle Harmonie (z. B. AV, To, LT). Ein typografisches Merkmal, kein Unicode-Konzept, beeinflusst …
Zeichen, die horizontalen oder vertikalen Raum darstellen, aber keine sichtbare Glyphe besitzen. Unicode definiert mehr als 17 Leerzeichen mit unterschiedlichen …
Zwei oder mehr Zeichen, die zu einer einzigen Glyphe zusammengefasst werden. Kann typografisch sein (fi → fi via OpenType) oder …
Modern font format developed by Microsoft and Adobe supporting up to 65,535 glyphs, advanced typographic features (ligatures, alternates, kerning), and …
Textrichtung, bei der Zeichen von rechts nach links fließen. Wird von Arabisch, Hebräisch, Thaana und anderen Schriften verwendet; erfordert den …
Eine spezifische Implementierung eines Schriftschnitts in einer bestimmten Größe, Stärke und Stil. In der digitalen Typografie eine Schriftdatei (TTF, OTF, …
Fonts downloaded by the browser to render text, declared via CSS @font-face. WOFF2 is the standard format. Unicode subsetting and …
Eingabemethoden (9)
Windows-Eingabemethode mit Alt + Ziffernblocktasten zur Eingabe von Zeichen anhand ihrer Codepage-Nummer (Alt+0169 → ©, Alt+0176 → °). Beschränkt auf …
A system-level tool for browsing and inserting Unicode characters. macOS Character Viewer (Ctrl+Cmd+Space), Windows Character Map (charmap.exe), and Linux gucharmap …
Eine Taste (normalerweise Rechts-Alt oder benutzerdefiniert), die eine Mehrfastasten-Kompositionssequenz startet. Linux/Unix-Funktion: Compose + a + e → æ. Konfigurierbar über …
Direkte Eingabe von Unicode-Codepunkten durch Tippen des Hexadezimalwerts. Mac: Option + Hex + Loslassen. Windows: Hex tippen, dann Alt+X in …
Softwarekomponente, die die Eingabe komplexer Zeichen (CJK, Koreanisch usw.) über eine Standardtastatur ermöglicht, indem Tastenfolgen über phonetische oder strukturelle Entsprechung …
Eine Taste, die keine sofortige Ausgabe erzeugt, sondern den nächsten Tastenanschlag modifiziert. Wird für Diakritika verwendet: ` dann e ergibt …
Jede Methode zur Eingabe von Zeichen anhand ihres Unicode-Codepunkts: Hexadezimaleingabe (Mac), U+XXXX-Eingabe über Strg+Umschalt+U (Linux) oder Alt+X (Windows-Anwendungen).
UI-Komponente (nativ oder webbasiert) zum visuellen Durchsuchen und Auswählen von Zeichen. Emoji-Auswahldialoge auf Mobilgeräten sind das häufigste Beispiel.
Grafisches Hilfsprogramm zum Durchsuchen und Einfügen von Unicode-Zeichen. Windows: charmap.exe. Mac: Zeichenübersicht (Control+Command+Leertaste). Linux: gucharmap.
Web & HTML (16)
HTML-Entität mit einem menschenlesbaren Namen: © → ©, — → —. HTML5 definiert 2.231 benannte Referenzen; sie sind zwischen Groß- …
HTTP-Header-Parameter, der die Zeichenkodierung einer Antwort deklariert (Content-Type: text/html; charset=utf-8). Überschreibt alle dokumentinternen Kodierungsdeklarationen.
CSS properties (direction, writing-mode, unicode-bidi) controlling text layout direction. Works with Unicode Bidi Algorithm for mixed LTR/RTL content in web …
CSS-Eigenschaft, die generierten Inhalt über die Pseudoelemente ::before und ::after mit Unicode-Escapes einfügt: content: "\2713" fügt ✓ ein.
Darstellung eines Zeichens als farbiges Emoji-Glyph, typischerweise mit Variationsselektor 16 (U+FE0F). Einige Zeichen haben standardmäßig die Emoji-Darstellung, andere die Textdarstellung.
Eine textuelle Darstellung eines Zeichens in HTML. Drei Formen: benannt (&), dezimal (&) und hexadezimal (&). Unerlässlich für Zeichen, die …
Domainnamen mit Nicht-ASCII-Unicode-Zeichen, intern als Punycode (xn--...) gespeichert, aber den Nutzern in Unicode angezeigt. Sicherheitsrisiko: Homograph-Angriffe.
ECMAScript Internationalization API providing locale-aware string comparison (Collator), number formatting (NumberFormat), date formatting (DateTimeFormat), and segmentation (Segmenter).
HTML-Entität, die die Unicode-Codepunktnummer verwendet: dezimal (© → ©) oder hexadezimal (© → ©). Funktioniert für jedes Unicode-Zeichen, anders als …
Kodierung von Nicht-ASCII- und reservierten Zeichen in URLs durch Ersetzen jedes Bytes mit %XX. UTF-8 wird zuerst verwendet, dann wird …
ASCII-kompatible Kodierung von Unicode-Domainnamen, bei der internationalisierte Labels in xn--präfixierte ASCII-Zeichenketten umgewandelt werden. münchen.de → xn--mnchen-3ya.de.
Darstellung eines Zeichens als einfaches monochromes Textglyph anstelle eines farbigen Emoji, typischerweise mit Variationsselektor 15 (U+FE0E) zur Überschreibung der Standard-Emoji-Darstellung.
CSS supports Unicode via escape sequences (\2713 for ✓), the content property for generated text, unicode-range for font subsetting, and …
Zeichen (U+FE00–U+FE0F, U+E0100–U+E01EF), die eine bestimmte Glyphenvariante auswählen. VS15 (U+FE0E) = Textdarstellung, VS16 (U+FE0F) = Emoji-Darstellung.
U+2060. Ein Zeichen ohne Breite, das einen Zeilenumbruch verhindert. Der moderne Ersatz für U+FEFF (BOM) als geschütztes Leerzeichen ohne Breite.
Die XML-Version numerischer Zeichenreferenzen: ✓ oder ✓. XML hat nur 5 benannte Entitäten (& < > " '), während HTML5 …
Programmierung & Entwicklung (13)
U+FFFD (�). Wird angezeigt, wenn ein Decoder ungültige Bytesequenzen antrifft — das universelle Symbol für „beim Dekodieren ist etwas schiefgelaufen".
Zwei 16-Bit-Codeeinheiten (ein High-Surrogate U+D800–U+DBFF + Low-Surrogate U+DC00–U+DFFF), die zusammen ein ergänzendes Zeichen in UTF-16 kodieren. 😀 = D83D DE00.
Java strings use UTF-16 internally. char is 16-bit (only BMP). For supplementary characters, use codePointAt() and Character.toChars(). Java's \uXXXX escapes …
Kodierung wandelt Zeichen in Bytes um (str.encode('utf-8')); Dekodierung wandelt Bytes in Zeichen um (bytes.decode('utf-8')). Korrekte Anwendung verhindert Mojibake.
Unlesbarer Text, der entsteht, wenn Bytes mit der falschen Kodierung dekodiert werden. Japanischer Begriff (文字化け). Beispiel: 'café' als UTF-8 gespeichert, …
U+0000 (NUL). Das erste Unicode/ASCII-Zeichen, als Zeichenketten-Terminator in C/C++ verwendet. Sicherheitsrisiko: Null-Byte-Injektion kann Zeichenketten in anfälligen Systemen abschneiden.
Python 3 uses Unicode strings by default (str = UTF-8 internally via PEP 393). Key features: \N{name} escapes, unicodedata module, …
Regex-Muster, die Unicode-Eigenschaften nutzen: \p{L} (beliebiger Buchstabe), \p{Script=Greek} (griechisches Skript), \p{Emoji}. Die Unterstützung variiert je nach Sprache und Regex-Engine.
Rust strings (str/String) are guaranteed valid UTF-8. char type represents a Unicode scalar value (4 bytes). Iteration via .chars() yields …
Die „Länge" einer Unicode-Zeichenkette hängt von der Einheit ab: Codeeinheiten (JavaScript .length), Codepunkte (Python len()) oder Graphem-Cluster. 👨👩👧👦 = 7 …
Syntax zur Darstellung von Unicode-Zeichen im Quellcode. Variiert je nach Sprache: \u2713 (Python/Java/JS), \u{2713} (JS/Ruby/Rust), \U00012345 (Python/C).
Jedes Zeichen ohne sichtbare Glyphe: Leerzeichen, Zeichen ohne Breite, Steuerzeichen und Formatierungszeichen. Kann Sicherheitsprobleme wie Spoofing und Text-Smuggling verursachen.
Eine Zeichenfolge in einer Programmiersprache. Die interne Darstellung variiert: UTF-8 (Go, Rust, neuere Python-Builds), UTF-16 (Java, JavaScript, C#) oder UTF-32 …
Sicherheit (10)
Exploiting Unicode bidirectional control characters to disguise malicious code or filenames. The 'Trojan Source' attack (CVE-2021-42574) uses bidi overrides to …
Verwendung von Unicode-Bidirektional-Override-Zeichen (U+202A–U+202E, U+2066–U+2069) zur Verschleierung schädlicher Dateinamen oder Code. 'readmefdp.exe' wird als 'readmeexe.pdf' angezeigt.
Erkennung von Text, der Zeichen aus verschiedenen Schriften mischt (z. B. Lateinisch + Kyrillisch). Hauptverteidigung gegen Homograph-Angriffe; Browser verwenden dies, …
Zeichen aus verschiedenen Schriften, die identisch oder sehr ähnlich aussehen, wie lateinisches 'a' und kyrillisches 'а'. Werden bei Phishing-, Spoofing- …
Verwendung visuell ähnlicher Unicode-Zeichen in Domainnamen, um legitime Seiten vorzutäuschen. аpple.com (kyrillisches а) sieht aus wie apple.com. Browser verteidigen sich …
Exploiting Unicode normalization to bypass security filters. Input validated before normalization may change form after: 'fi' (U+FB01) normalizes to 'fi', …
Verwendung von Unicode-Funktionen zur Täuschung von Nutzern: Homoglyphen für gefälschte Domains, Bidi-Overrides für gefälschte Dateierweiterungen oder unsichtbare Zeichen für versteckten …
Unicodes offizieller Begriff für Zeichenpaare, die visuell verwechselt werden können, definiert in confusables.txt (UCD). Breiter als Homoglyphen — umfasst auch …
U+200D. Fordert das Verbinden benachbarter Zeichen an. Grundlegend für Emoji-Sequenzen (👩+ZWJ+💻=👩💻). In indischen Schriften fordert es die Ligaturbildung an. Kann …
U+200C. Verhindert das Verbinden benachbarter Zeichen. Unverzichtbar im Persischen/Arabischen für korrekte Buchstabenformen und im Devanagari zur Verhinderung von Ligaturen.
Emoji (6)
Piktografische Unicode-Zeichen, die aus japanischen Mobiltelefonen stammen. Heute mehr als 3.790 Emoji über mehrere Blöcke (Emoticons, Misc Symbols & Pictographs, …
Multi-character emoji constructed by combining base emoji with modifiers, ZWJ characters, or variation selectors. Types include keycap sequences (#️⃣), flag …
Five Fitzpatrick scale modifiers (U+1F3FB–U+1F3FF, 🏻–🏿) that change human emoji skin color. Applied by appending the modifier after a base …
Fitzpatrick-Hauttonfarbmodifikatoren (U+1F3FB–U+1F3FF), die die Hautfarbe menschlicher Emoji ändern, indem sie unmittelbar nach einem menschlichen Basis-Emoji platziert werden.
Emoji, das durch Verbinden mehrerer Emoji mit dem Zero Width Joiner (U+200D) gebildet wird. 👨👩👧👦 = Mann + ZWJ + …
26 Zeichen (U+1F1E6–U+1F1FF, 🇦–🇿), die paarweise zu Länderfahnen-Emoji kombiniert werden, basierend auf ISO-3166-1-Ländercodes. 🇺+🇸 = 🇺🇸.