Unicode शब्दावली
150 आवश्यक Unicode शब्द समझाए गए — कैरेक्टर एन्कोडिंग की मूल बातों से लेकर सुरक्षा अवधारणाओं तक।
एन्कोडिंग (17)
American Standard Code for Information Interchange। 7-bit एन्कोडिंग जो 128 अक्षरों (0–127) को कवर करती है: नियंत्रण अक्षर, अंक, Latin …
Visual art created from text characters, originally limited to the 95 printable ASCII characters. Unicode expands the palette with box-drawing …
Binary-to-text encoding that represents binary data using 64 ASCII characters (A–Z, a–z, 0–9, +, /). Used for embedding binary data …
पारंपरिक चीनी अक्षर एन्कोडिंग जो मुख्य रूप से ताइवान और हांगकांग में उपयोग की जाती है, लगभग 13,000 CJK अक्षरों …
Extended Binary Coded Decimal Interchange Code। IBM mainframe एन्कोडिंग जिसमें असंतत अक्षर श्रेणियां हैं, अभी भी banking और enterprise mainframes …
KS X 1001 पर आधारित कोरियाई अक्षर एन्कोडिंग, जो Hangul syllables और Hanja को double-byte sequences में मैप करती है।
सरलीकृत चीनी अक्षर एन्कोडिंग परिवार: GB2312 (6,763 अक्षर) GBK में विकसित हुआ और फिर GB18030 में, जो अनिवार्य Unicode-संगत चीनी …
IANA द्वारा रखरखाव किया गया अक्षर एन्कोडिंग नामों का आधिकारिक रजिस्ट्री, HTTP Content-Type headers और MIME में उपयोग किया जाता …
विभिन्न भाषा समूहों के लिए 8-bit single-byte एन्कोडिंग का परिवार। ISO 8859-1 (Latin-1) Unicode के पहले 256 code points का …
जापानी अक्षर एन्कोडिंग जो single-byte ASCII/JIS Roman को double-byte JIS X 0208 kanji के साथ मिलाती है। अभी भी legacy …
अप्रचलित निश्चित-लंबाई 2-byte एन्कोडिंग जो केवल BMP (U+0000–U+FFFF) को कवर करती है। UTF-16 का पूर्ववर्ती जो supplementary अक्षरों को प्रस्तुत …
परिवर्तनशील-लंबाई वाली Unicode एन्कोडिंग जो 2 या 4 bytes (16 bits के 1 या 2 code units) का उपयोग करती …
निश्चित-लंबाई वाली Unicode एन्कोडिंग जो प्रति अक्षर ठीक 4 bytes का उपयोग करती है। सरल लेकिन स्थान-अकुशल; Python 3 (CPython) …
परिवर्तनशील-लंबाई वाली Unicode एन्कोडिंग जो प्रति अक्षर 1–4 bytes का उपयोग करती है। वेब की प्रमुख एन्कोडिंग (98%+ वेबसाइटों पर) …
Microsoft का ISO 8859-1 का superset, जो 0x80–0x9F रेंज में smart quotes, em dash और euro sign जोड़ता है। सबसे …
U+FEFF जो byte order और एन्कोडिंग को इंगित करने के लिए text stream की शुरुआत में रखा जाता है। UTF-16/32 …
एक प्रणाली जो डिजिटल भंडारण और संचरण के लिए अक्षरों को byte sequences में मैप करती है। प्रत्येक text file …
यूनिकोड मानक (25)
Plane 0 (U+0000–U+FFFF), जिसमें सबसे अधिक उपयोग किए जाने वाले अक्षर शामिल हैं जैसे Latin, Greek, Cyrillic, CJK, Arabic और …
Chinese, Japanese, और Korean — Unicode में unified Han ideograph block और संबंधित scripts के लिए सामूहिक शब्द। CJK Unified …
The process of mapping Chinese, Japanese, and Korean ideographs that share a common historical origin to a single Unicode code …
The individual consonant and vowel components (jamo) of the Korean Hangul writing system. Unicode encodes both precomposed Hangul syllables (U+AC00–U+D7A3) …
अंतर्राष्ट्रीय मानक (ISO/IEC 10646) जो Unicode के साथ समकालिक है, समान अक्षर repertoire और code points को परिभाषित करता है …
सार्वभौमिक अक्षर एन्कोडिंग मानक जो हर लिखित प्रणाली के हर अक्षर को एक अद्वितीय संख्या (code point) प्रदान करता है। …
डेटा फाइलों का machine-readable संग्रह जो सभी Unicode अक्षर गुणों को परिभाषित करता है, जिसमें UnicodeData.txt, Blocks.txt, Scripts.txt और कई …
Normative or informative documents that are integral parts of the Unicode Standard. UAX#9 (Bidi Algorithm), UAX#11 (East Asian Width), UAX#15 …
Informational documents published by the Unicode Consortium covering specific topics like security mechanisms (UTR#39), text segmentation (UTR#29), and line breaking …
एक कोड पॉइंट जिसे अभी तक किसी भी Unicode संस्करण में वर्ण नहीं सौंपा गया है, Cn (Unassigned) के रूप …
पाठ्य डेटा को व्यवस्थित करने, नियंत्रित करने या निरूपित करने के लिए उपयोग की जाने वाली सूचना की इकाई — …
एक code point जिसे Unicode संस्करण में अक्षर पदनाम दिया गया है। Unicode 16.0 के अनुसार, 1,114,112 संभावित में से …
भविष्य के मानकीकरण के लिए आरक्षित कोड पॉइंट, noncharacters (स्थायी रूप से आरक्षित) और private use areas (उपयोगकर्ता-असाइन करने योग्य) …
एन्कोडिंग की न्यूनतम इकाई: UTF-8 में 8-bit byte, UTF-16 में 16-bit word, UTF-32 में 32-bit word। एक अक्षर के लिए …
Unicode code space (U+0000 से U+10FFFF) में एक संख्यात्मक मान, जिसे U+XXXX के रूप में लिखा जाता है। सभी code …
संभावित Unicode code points की पूर्ण श्रेणी: U+0000 से U+10FFFF (कुल 1,114,112), जो 65,536 code points के 17 planes में …
आंतरिक उपयोग के लिए स्थायी रूप से आरक्षित code points (कुल 66): U+FDD0–U+FDEF और प्रत्येक plane के लिए U+nFFFE/U+nFFFF। text …
65,536 code points का एक सन्निहित ब्लॉक। Unicode में 17 planes (0–16) हैं: Plane 0 BMP है, Plane 1 SMP …
आरक्षित श्रेणियां जहां संगठन अपने स्वयं के अक्षर निर्दिष्ट कर सकते हैं: BMP PUA (U+E000–U+F8FF) और Planes 15 और 16 …
Planes 1–16 (U+10000–U+10FFFF), जिसमें emoji, ऐतिहासिक लिपियां, CJK extensions और संगीत notation शामिल हैं। UTF-16 में surrogate pairs की आवश्यकता …
गैर-लाभकारी संगठन जो Unicode Standard को विकसित और रखरखाव करता है। सदस्यों में Apple, Google, Microsoft, Meta और कई अन्य …
Unicode Standard के मुख्य संस्करण, प्रत्येक नए अक्षर, लिपियां और सुविधाएं जोड़ते हैं। वर्तमान संस्करण Unicode 16.0 (सितंबर 2025) है।
कोई भी कोड पॉइंट सिवाय सरोगेट कोड पॉइंट्स (U+D800–U+DFFF) के। वास्तविक वर्णों को निरूपित करने वाले मान्य मानों का सेट, …
गारंटी कि एक बार अक्षर निर्दिष्ट हो जाने पर, उसका code point और नाम कभी नहीं बदलता। गुणों को परिष्कृत …
Code points U+D800–U+DFFF जो विशेष रूप से UTF-16 surrogate pairs के लिए आरक्षित हैं। वैध Unicode scalar values नहीं हैं …
गुणधर्म (19)
Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or Neutral. Wide characters (CJK ideographs, katakana) occupy two …
Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. Types include Right_Joining, Left_Joining, Dual_Joining, and Non_Joining.
Unicode property listing all scripts that use a character, broader than the single-valued Script property. Common characters like digits have …
वर्णों को uppercase, lowercase, और titlecase के बीच परिवर्तित करने के नियम। locale-dependent हो सकते हैं (Turkish I समस्या) और …
उपयोगकर्ता द्वारा अनुभव किया गया 'वर्ण' — जो एक एकल इकाई के रूप में महसूस होता है। कई कोड पॉइंट्स …
वर्ण जिनका कोई दृश्य प्रभाव नहीं होना चाहिए और उन प्रक्रियाओं द्वारा अनदेखा किया जा सकता है जो उनका समर्थन …
वे वर्ण जिनकी glyph को RTL संदर्भ में क्षैतिज रूप से प्रतिबिंबित किया जाना चाहिए। उदाहरण: ( → ), [ …
प्रॉपर्टी जो द्विदिशात्मक पाठ (LTR, RTL, weak, neutral) में वर्ण के व्यवहार को निर्धारित करती है। Unicode Bidirectional Algorithm द्वारा …
वर्णों के लिए वैकल्पिक नाम, क्योंकि Unicode नाम स्थिरता नीति के अनुसार नहीं बदले जा सकते। सुधार, संक्षिप्ताक्षर और figments …
कोड पॉइंट्स की एक नामित सन्निकट श्रृंखला (जैसे, Basic Latin = U+0000–U+007F)। Unicode 16.0 में 336 blocks परिभाषित हैं; प्रत्येक …
वह लिपि जिससे वर्ण संबंधित है (जैसे, Latin, Cyrillic, Han)। Unicode 16.0 में 168 scripts परिभाषित हैं; Script प्रॉपर्टी सुरक्षा …
किसी वर्ण का उसके घटक भागों में मैपिंग। Canonical decomposition अर्थ को संरक्षित रखता है (é → e + ́); …
लिखित भाषा को व्यवस्थित और स्पष्ट करने के लिए उपयोग किए जाने वाले वर्ण: periods, commas, dashes, quotation marks, और …
दो वर्ण अनुक्रम जो शब्दार्थ रूप से समान हैं और उन्हें बराबर माना जाना चाहिए। उदाहरण: é (U+00E9) ≡ e …
वर्ण की संख्यात्मक व्याख्या, यदि कोई हो: digit value (0–9), decimal value, या सामान्य संख्यात्मक मान (जैसे, ½ = 0.5, …
दो वर्ण अनुक्रम जिनकी समान अमूर्त सामग्री है लेकिन दिखावट में भिन्न हो सकते हैं। Canonical equivalence से व्यापक। उदाहरण: …
संख्यात्मक मान (0–254) जो canonical decomposition के दौरान combining marks के क्रम को नियंत्रित करता है, यह निर्धारित करते हुए …
Unicode संस्करण जिसमें वर्ण पहली बार सौंपा गया था। सिस्टम और सॉफ्टवेयर संस्करणों में वर्ण समर्थन निर्धारित करने के लिए …
प्रत्येक कोड पॉइंट का 30 श्रेणियों (Lu, Ll, Nd, So, आदि) में वर्गीकरण जो 7 प्रमुख वर्गों में समूहीकृत हैं: …
एल्गोरिदम (15)
Mapping characters to a common case form for case-insensitive comparison. More comprehensive than lowercasing: German ß → ss, Turkish İ …
Rules (UAX#29) for determining where one user-perceived character ends and another begins. Critical for cursor movement, text selection, and correctly …
Normalization Form C: canonically decompose करें फिर recompose करें, सबसे छोटा रूप उत्पन्न करते हुए। डेटा संग्रहण और विनिमय के …
Normalization Form D: बिना recomposing के पूरी तरह decompose करें। macOS HFS+ filesystem द्वारा उपयोग किया जाता है। é (U+00E9) …
Normalization Form KC: compatibility decomposition फिर canonical composition। दृश्य रूप से समान वर्णों को विलय करता है (fi→fi, ²→2, Ⅳ→IV)। …
Normalization Form KD: बिना recomposing के compatibility decomposition। सबसे आक्रामक normalization, सबसे अधिक formatting जानकारी खोता है।
Comparing Unicode strings requires normalization (NFC/NFD) and optionally collation (locale-aware sorting). Binary comparison of code points alone gives incorrect results …
मिश्रित-दिशा पाठ (जैसे, English + Arabic) में वर्णों के प्रदर्शन क्रम को निर्धारित करने वाला algorithm, वर्ण bidi श्रेणियों और …
यह निर्धारित करने के नियम कि पाठ कहाँ अगली पंक्ति में wrap हो सकता है, वर्ण प्रॉपर्टीज़, CJK शब्द सीमाओं …
पाठ में सीमाएँ खोजने के लिए algorithms: grapheme cluster, शब्द, और वाक्य सीमाएँ। cursor movement, text selection और text processing …
Unicode नियमों के अनुसार वाक्यों के बीच की स्थिति। periods पर विभाजन से अधिक जटिल — संक्षिप्ताक्षर (Mr.), ellipsis (...), …
शब्दों के बीच की स्थिति जैसा कि Unicode word break नियमों द्वारा निर्धारित। रिक्त स्थान पर सरल विभाजन नहीं — …
Canonical composition (NFC) से बाहर रखे गए वर्ण ताकि non-starter decomposition को रोका जा सके और algorithmic स्थिरता सुनिश्चित की …
Unicode पाठ को मानक canonical रूप में परिवर्तित करने की प्रक्रिया। चार रूप: NFC (composed), NFD (decomposed), NFKC (compatibility composed), …
बहु-स्तरीय तुलना का उपयोग करके Unicode strings की तुलना और क्रमबद्ध करने के लिए मानक algorithm: base character → accents …
टाइपोग्राफी (19)
CSS @font-face descriptor specifying which Unicode code points a font should cover. Enables downloading only the font subset needed for …
Em: font size के बराबर चौड़ाई। En: एक em का आधा। em dash width, em space, en space, और CSS …
The mechanism by which a rendering engine substitutes glyphs from a secondary font when the primary font lacks coverage for …
Modern font format developed by Microsoft and Adobe supporting up to 65,535 glyphs, advanced typographic features (ligatures, alternates, kerning), and …
पाठ दिशा जहाँ वर्ण दाएँ से बाएँ प्रवाहित होते हैं। अरबी, हिब्रू, Thaana और अन्य लिपियों में उपयोग किया जाता …
Fonts downloaded by the browser to render text, declared via CSS @font-face. WOFF2 is the standard format. Unicode subsetting and …
प्रत्यक्ष भाषण या उद्धरण को घेरने वाले युग्मित विराम चिह्न। Unicode में straight (""), curly (""), guillemets (« »), CJK …
दृश्य सामंजस्य के लिए विशिष्ट वर्ण युग्मों के बीच की दूरी को समायोजित करना (जैसे, AV, To, LT)। यह एक …
फ़ॉन्ट द्वारा रेंडर किया गया किसी वर्ण का दृश्य प्रतिनिधित्व। एक वर्ण के कई glyphs हो सकते हैं (ligatures, contextual …
वाक्य के भागों को अलग करने या श्रेणियाँ दर्शाने के लिए उपयोग किए जाने वाले विराम चिह्न। Unicode कई dashes …
U+2026 HORIZONTAL ELLIPSIS (…)। तीन periods को बदलने वाला एक एकल वर्ण, टाइपोग्राफ़िक रूप से सही और 3 के बजाय …
U+00A0। एक space जो अपनी स्थिति पर line breaking को रोकता है। HTML: । संख्या और इकाइयों के बीच (100 …
किसी विशेष आकार, वज़न और शैली में typeface का एक विशिष्ट कार्यान्वयन। डिजिटल टाइपोग्राफी में, glyph परिभाषाओं और metrics युक्त …
वे वर्ण जो क्षैतिज या ऊर्ध्वाधर स्थान दर्शाते हैं लेकिन दृश्य glyph नहीं रखते। Unicode विभिन्न चौड़ाई और line-breaking व्यवहार …
उच्चारण या अर्थ बदलने के लिए अक्षर में जोड़ा गया चिह्न। precomposed हो सकता है (é U+00E9) या combining (e …
शून्य advance width वाले वर्ण — रेंडरिंग में अदृश्य लेकिन पाठ व्यवहार को प्रभावित करते हैं। इसमें ZWSP (word break), …
दो या अधिक वर्ण जो एक ही glyph में जुड़े हों। टाइपोग्राफ़िक हो सकता है (fi → fi OpenType द्वारा) …
एक वर्ण जो पूर्ववर्ती base character से जुड़कर उसे संशोधित करता है। General Category: Mn (nonspacing), Mc (spacing combining), Me …
lowercase अक्षरों की ऊँचाई पर uppercase letterforms। CSS: font-variant: small-caps। Unicode में Latin Extended में वास्तविक small capital letters भी …
इनपुट विधियाँ (9)
Alt + numpad अंकों का उपयोग करके उनके code page नंबर द्वारा वर्ण टाइप करने की Windows इनपुट विधि (Alt+0169 …
A system-level tool for browsing and inserting Unicode characters. macOS Character Viewer (Ctrl+Cmd+Space), Windows Character Map (charmap.exe), and Linux gucharmap …
मानक keyboard का उपयोग करके जटिल वर्णों (CJK, Korean, आदि) को इनपुट करने में सक्षम सॉफ़्टवेयर घटक, keystroke sequences को …
एक key (आमतौर पर Right Alt या custom-mapped) जो multi-key composition sequence शुरू करती है। Linux/Unix सुविधा: Compose + a …
एक key जो तुरंत कोई आउटपुट नहीं देती बल्कि अगले keystroke को संशोधित करती है। diacritics के लिए उपयोग की …
Unicode code point द्वारा वर्ण दर्ज करने की कोई भी विधि: hex input (Mac), Ctrl+Shift+U द्वारा U+XXXX प्रविष्टि (Linux), या …
वर्णों को दृश्य रूप से ब्राउज़ और चयन करने के लिए UI घटक (native या web-based)। mobile पर emoji pickers …
Unicode वर्णों को ब्राउज़ और सम्मिलित करने के लिए GUI उपयोगिता। Windows: charmap.exe। Mac: Character Viewer (Control+Command+Space)। Linux: gucharmap।
hex मान टाइप करके सीधे Unicode code point प्रविष्टि। Mac: Option + hex पकड़ें + छोड़ें। Windows: hex टाइप करें …
वेब और HTML (16)
HTTP header parameter जो response की character encoding घोषित करता है (Content-Type: text/html; charset=utf-8)। किसी in-document encoding घोषणा को override …
Unicode escapes का उपयोग करके ::before और ::after pseudo-elements के माध्यम से generated content सम्मिलित करने वाली CSS property: content: …
CSS properties (direction, writing-mode, unicode-bidi) controlling text layout direction. Works with Unicode Bidi Algorithm for mixed LTR/RTL content in web …
HTML में किसी वर्ण का पाठीय प्रतिनिधित्व। तीन रूप: named (&), decimal (&), hexadecimal (&)। HTML syntax से टकराने वाले …
non-ASCII Unicode वर्ण युक्त domain names, आंतरिक रूप से Punycode (xn--...) के रूप में संग्रहीत लेकिन उपयोगकर्ताओं को Unicode में …
ECMAScript Internationalization API providing locale-aware string comparison (Collator), number formatting (NumberFormat), date formatting (DateTimeFormat), and segmentation (Segmenter).
Unicode domain names का ASCII-compatible encoding, अंतर्राष्ट्रीयकृत labels को xn-- उपसर्ग वाले ASCII strings में परिवर्तित करता है। münchen.de → …
CSS supports Unicode via escape sequences (\2713 for ✓), the content property for generated text, unicode-range for font subsetting, and …
XML का न्यूमेरिक कैरेक्टर रेफ़रेंस: ✓ या ✓। XML में केवल 5 नामित entities हैं (& < > " '), …
किसी वर्ण को रंगीन emoji ग्लिफ़ के साथ रेंडर करना, आमतौर पर Variation Selector 16 (U+FE0F) का उपयोग करके। कुछ …
मानव-पठनीय नाम का उपयोग करने वाली HTML entity: © → ©, — → —। HTML5 में 2,231 named references परिभाषित …
किसी वर्ण को सादे monochrome टेक्स्ट ग्लिफ़ के साथ रेंडर करना बजाय रंगीन emoji के, आमतौर पर Variation Selector 15 …
URLs में non-ASCII और आरक्षित वर्णों को प्रत्येक byte को %XX से बदलकर एन्कोड करना। पहले UTF-8 का उपयोग किया …
वे वर्ण (U+FE00–U+FE0F, U+E0100–U+E01EF) जो किसी विशिष्ट ग्लिफ़ वेरिएंट का चयन करते हैं। VS15 (U+FE0E) = टेक्स्ट प्रेज़ेंटेशन, VS16 (U+FE0F) …
U+2060। एक शून्य-चौड़ाई वर्ण जो लाइन ब्रेकिंग को रोकता है। यह U+FEFF (BOM) का आधुनिक प्रतिस्थापन है जो शून्य-चौड़ाई नो-ब्रेक …
Unicode code point संख्या का उपयोग करने वाली HTML entity: decimal (© → ©) या hexadecimal (© → ©)। named …
प्रोग्रामिंग और विकास (13)
Java strings use UTF-16 internally. char is 16-bit (only BMP). For supplementary characters, use codePointAt() and Character.toChars(). Java's \uXXXX escapes …
गलत encoding से bytes को decode करने के कारण गड़बड़ हुआ टेक्स्ट। जापानी शब्द (文字化け)। उदाहरण: 'café' को UTF-8 के …
Python 3 uses Unicode strings by default (str = UTF-8 internally via PEP 393). Key features: \N{name} escapes, unicodedata module, …
Rust strings (str/String) are guaranteed valid UTF-8. char type represents a Unicode scalar value (4 bytes). Iteration via .chars() yields …
कोई भी वर्ण जिसका कोई दृश्य ग्लिफ़ नहीं है: whitespace, zero-width वर्ण, control वर्ण, और formatting वर्ण। spoofing और टेक्स्ट …
Encoding वर्णों को bytes में परिवर्तित करता है (str.encode('utf-8')); decoding bytes को वर्णों में परिवर्तित करता है (bytes.decode('utf-8'))। इसे सही …
U+0000 (NUL)। पहला Unicode/ASCII वर्ण, C/C++ में string terminator के रूप में उपयोग किया जाता है। सुरक्षा जोखिम: null byte …
U+FFFD (�)। जब decoder अमान्य byte sequences का सामना करता है तो प्रदर्शित होता है — 'decoding में कुछ गलत …
सोर्स कोड में Unicode वर्णों को दर्शाने के लिए सिंटैक्स। भाषा के अनुसार भिन्न: \u2713 (Python/Java/JS), \u{2713} (JS/Ruby/Rust), \U00012345 (Python/C)।
Unicode properties का उपयोग करने वाले regex पैटर्न: \p{L} (कोई भी अक्षर), \p{Script=Greek} (Greek स्क्रिप्ट), \p{Emoji}। समर्थन भाषा और regex …
दो 16-bit code units (एक high surrogate U+D800–U+DBFF + low surrogate U+DC00–U+DFFF) जो मिलकर UTF-16 में एक supplementary character को …
प्रोग्रामिंग भाषा में वर्णों का एक क्रम। आंतरिक प्रतिनिधित्व भिन्न होता है: UTF-8 (Go, Rust, नए Python बिल्ड), UTF-16 (Java, …
Unicode string की 'लंबाई' इकाई पर निर्भर करती है: code units (JavaScript .length), code points (Python len()), या grapheme clusters। …
सुरक्षा (10)
Exploiting Unicode bidirectional control characters to disguise malicious code or filenames. The 'Trojan Source' attack (CVE-2021-42574) uses bidi overrides to …
वैध साइटों का रूप धारण करने के लिए domain names में दृश्य रूप से समान Unicode वर्णों का उपयोग करना। …
Exploiting Unicode normalization to bypass security filters. Input validated before normalization may change form after: 'fi' (U+FB01) normalizes to 'fi', …
U+200D। अनुरोध करता है कि आसन्न वर्णों को जोड़ा जाए। emoji sequences (👩+ZWJ+💻=👩💻) के लिए महत्वपूर्ण। Indic scripts में, ligature …
U+200C। आसन्न वर्णों के जुड़ने को रोकता है। Persian/Arabic में सही अक्षर रूपों के लिए आवश्यक और Devanagari में ligatures …
दुर्भावनापूर्ण फ़ाइल नामों या कोड को छिपाने के लिए Unicode bidirectional override वर्णों (U+202A–U+202E, U+2066–U+2069) का उपयोग। 'readmefdp.exe' 'readmeexe.pdf' के …
वर्ण जोड़ों के लिए Unicode का आधिकारिक शब्द जो दृश्य रूप से भ्रमित किए जा सकते हैं, confusables.txt (UCD) में …
ऐसे टेक्स्ट की पहचान करना जो विभिन्न scripts के वर्णों को मिलाता है (जैसे, Latin + Cyrillic)। homoglyph हमलों के …
उपयोगकर्ताओं को धोखा देने के लिए Unicode सुविधाओं का उपयोग: नकली domains के लिए homoglyphs, नकली फ़ाइल extensions के लिए …
विभिन्न scripts के वर्ण जो समान या बहुत समान दिखते हैं, जैसे Latin 'a' बनाम Cyrillic 'а'। phishing, spoofing, और …
इमोजी (6)
जापानी मोबाइल फ़ोन से उत्पन्न चित्रात्मक Unicode वर्ण। अब कई blocks (Emoticons, Misc Symbols & Pictographs, Transport, आदि) में 3,790+ …
Multi-character emoji constructed by combining base emoji with modifiers, ZWJ characters, or variation selectors. Types include keycap sequences (#️⃣), flag …
Five Fitzpatrick scale modifiers (U+1F3FB–U+1F3FF, 🏻–🏿) that change human emoji skin color. Applied by appending the modifier after a base …
Zero Width Joiner (U+200D) से कई emoji को जोड़कर बनाए गए emoji। 👨👩👧👦 = Man + ZWJ + Woman + …
Fitzpatrick scale skin tone modifiers (U+1F3FB–U+1F3FF) जो किसी human emoji के तुरंत बाद रखे जाने पर उसकी त्वचा का रंग …
26 वर्ण (U+1F1E6–U+1F1FF, 🇦–🇿) जो ISO 3166-1 country codes के आधार पर देश के flag emoji बनाने के लिए जोड़ों …