Unicode शब्दावली

150 आवश्यक Unicode शब्द समझाए गए — कैरेक्टर एन्कोडिंग की मूल बातों से लेकर सुरक्षा अवधारणाओं तक।

एन्कोडिंग (17)

ASCII

American Standard Code for Information Interchange। 7-bit एन्कोडिंग जो 128 अक्षरों (0–127) को कवर करती है: नियंत्रण अक्षर, अंक, Latin …

ASCII Art

Visual art created from text characters, originally limited to the 95 printable ASCII characters. Unicode expands the palette with box-drawing …

Base64

Binary-to-text encoding that represents binary data using 64 ASCII characters (A–Z, a–z, 0–9, +, /). Used for embedding binary data …

Big5

पारंपरिक चीनी अक्षर एन्कोडिंग जो मुख्य रूप से ताइवान और हांगकांग में उपयोग की जाती है, लगभग 13,000 CJK अक्षरों …

EBCDIC

Extended Binary Coded Decimal Interchange Code। IBM mainframe एन्कोडिंग जिसमें असंतत अक्षर श्रेणियां हैं, अभी भी banking और enterprise mainframes …

EUC-KR

KS X 1001 पर आधारित कोरियाई अक्षर एन्कोडिंग, जो Hangul syllables और Hanja को double-byte sequences में मैप करती है।

GB2312 / GB18030

सरलीकृत चीनी अक्षर एन्कोडिंग परिवार: GB2312 (6,763 अक्षर) GBK में विकसित हुआ और फिर GB18030 में, जो अनिवार्य Unicode-संगत चीनी …

IANA कैरेक्टर सेट

IANA द्वारा रखरखाव किया गया अक्षर एन्कोडिंग नामों का आधिकारिक रजिस्ट्री, HTTP Content-Type headers और MIME में उपयोग किया जाता …

ISO 8859

विभिन्न भाषा समूहों के लिए 8-bit single-byte एन्कोडिंग का परिवार। ISO 8859-1 (Latin-1) Unicode के पहले 256 code points का …

Shift JIS

जापानी अक्षर एन्कोडिंग जो single-byte ASCII/JIS Roman को double-byte JIS X 0208 kanji के साथ मिलाती है। अभी भी legacy …

UCS-2

अप्रचलित निश्चित-लंबाई 2-byte एन्कोडिंग जो केवल BMP (U+0000–U+FFFF) को कवर करती है। UTF-16 का पूर्ववर्ती जो supplementary अक्षरों को प्रस्तुत …

UTF-16

परिवर्तनशील-लंबाई वाली Unicode एन्कोडिंग जो 2 या 4 bytes (16 bits के 1 या 2 code units) का उपयोग करती …

UTF-32

निश्चित-लंबाई वाली Unicode एन्कोडिंग जो प्रति अक्षर ठीक 4 bytes का उपयोग करती है। सरल लेकिन स्थान-अकुशल; Python 3 (CPython) …

UTF-8

परिवर्तनशील-लंबाई वाली Unicode एन्कोडिंग जो प्रति अक्षर 1–4 bytes का उपयोग करती है। वेब की प्रमुख एन्कोडिंग (98%+ वेबसाइटों पर) …

Windows-1252

Microsoft का ISO 8859-1 का superset, जो 0x80–0x9F रेंज में smart quotes, em dash और euro sign जोड़ता है। सबसे …

बाइट क्रम चिह्न

U+FEFF जो byte order और एन्कोडिंग को इंगित करने के लिए text stream की शुरुआत में रखा जाता है। UTF-16/32 …

वर्ण एन्कोडिंग

एक प्रणाली जो डिजिटल भंडारण और संचरण के लिए अक्षरों को byte sequences में मैप करती है। प्रत्येक text file …

यूनिकोड मानक (25)

Basic Multilingual Plane (BMP)

Plane 0 (U+0000–U+FFFF), जिसमें सबसे अधिक उपयोग किए जाने वाले अक्षर शामिल हैं जैसे Latin, Greek, Cyrillic, CJK, Arabic और …

CJK

Chinese, Japanese, और Korean — Unicode में unified Han ideograph block और संबंधित scripts के लिए सामूहिक शब्द। CJK Unified …

Han Unification

The process of mapping Chinese, Japanese, and Korean ideographs that share a common historical origin to a single Unicode code …

Hangul Jamo

The individual consonant and vowel components (jamo) of the Korean Hangul writing system. Unicode encodes both precomposed Hangul syllables (U+AC00–U+D7A3) …

ISO 10646 / Universal Character Set

अंतर्राष्ट्रीय मानक (ISO/IEC 10646) जो Unicode के साथ समकालिक है, समान अक्षर repertoire और code points को परिभाषित करता है …

Unicode

सार्वभौमिक अक्षर एन्कोडिंग मानक जो हर लिखित प्रणाली के हर अक्षर को एक अद्वितीय संख्या (code point) प्रदान करता है। …

Unicode Character Database (UCD)

डेटा फाइलों का machine-readable संग्रह जो सभी Unicode अक्षर गुणों को परिभाषित करता है, जिसमें UnicodeData.txt, Blocks.txt, Scripts.txt और कई …

Unicode Standard Annex (UAX)

Normative or informative documents that are integral parts of the Unicode Standard. UAX#9 (Bidi Algorithm), UAX#11 (East Asian Width), UAX#15 …

Unicode Technical Report (UTR)

Informational documents published by the Unicode Consortium covering specific topics like security mechanisms (UTR#39), text segmentation (UTR#29), and line breaking …

अनसाइन्ड कोड बिंदु

एक कोड पॉइंट जिसे अभी तक किसी भी Unicode संस्करण में वर्ण नहीं सौंपा गया है, Cn (Unassigned) के रूप …

अमूर्त वर्ण

पाठ्य डेटा को व्यवस्थित करने, नियंत्रित करने या निरूपित करने के लिए उपयोग की जाने वाली सूचना की इकाई — …

असाइन किया गया वर्ण

एक code point जिसे Unicode संस्करण में अक्षर पदनाम दिया गया है। Unicode 16.0 के अनुसार, 1,114,112 संभावित में से …

आरक्षित कोड बिंदु

भविष्य के मानकीकरण के लिए आरक्षित कोड पॉइंट, noncharacters (स्थायी रूप से आरक्षित) और private use areas (उपयोगकर्ता-असाइन करने योग्य) …

कोड इकाई

एन्कोडिंग की न्यूनतम इकाई: UTF-8 में 8-bit byte, UTF-16 में 16-bit word, UTF-32 में 32-bit word। एक अक्षर के लिए …

कोड बिंदु

Unicode code space (U+0000 से U+10FFFF) में एक संख्यात्मक मान, जिसे U+XXXX के रूप में लिखा जाता है। सभी code …

कोड स्पेस

संभावित Unicode code points की पूर्ण श्रेणी: U+0000 से U+10FFFF (कुल 1,114,112), जो 65,536 code points के 17 planes में …

गैर-वर्ण

आंतरिक उपयोग के लिए स्थायी रूप से आरक्षित code points (कुल 66): U+FDD0–U+FDEF और प्रत्येक plane के लिए U+nFFFE/U+nFFFF। text …

तल

65,536 code points का एक सन्निहित ब्लॉक। Unicode में 17 planes (0–16) हैं: Plane 0 BMP है, Plane 1 SMP …

निजी उपयोग क्षेत्र

आरक्षित श्रेणियां जहां संगठन अपने स्वयं के अक्षर निर्दिष्ट कर सकते हैं: BMP PUA (U+E000–U+F8FF) और Planes 15 और 16 …

पूरक तल

Planes 1–16 (U+10000–U+10FFFF), जिसमें emoji, ऐतिहासिक लिपियां, CJK extensions और संगीत notation शामिल हैं। UTF-16 में surrogate pairs की आवश्यकता …

यूनिकोड संघ

गैर-लाभकारी संगठन जो Unicode Standard को विकसित और रखरखाव करता है। सदस्यों में Apple, Google, Microsoft, Meta और कई अन्य …

यूनिकोड संस्करण

Unicode Standard के मुख्य संस्करण, प्रत्येक नए अक्षर, लिपियां और सुविधाएं जोड़ते हैं। वर्तमान संस्करण Unicode 16.0 (सितंबर 2025) है।

यूनिकोड स्केलर मान

कोई भी कोड पॉइंट सिवाय सरोगेट कोड पॉइंट्स (U+D800–U+DFFF) के। वास्तविक वर्णों को निरूपित करने वाले मान्य मानों का सेट, …

यूनिकोड स्थिरता नीति

गारंटी कि एक बार अक्षर निर्दिष्ट हो जाने पर, उसका code point और नाम कभी नहीं बदलता। गुणों को परिष्कृत …

सरोगेट

Code points U+D800–U+DFFF जो विशेष रूप से UTF-16 surrogate pairs के लिए आरक्षित हैं। वैध Unicode scalar values नहीं हैं …

गुणधर्म (19)

East Asian Width

Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or Neutral. Wide characters (CJK ideographs, katakana) occupy two …

Joining Type

Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. Types include Right_Joining, Left_Joining, Dual_Joining, and Non_Joining.

Script Extensions

Unicode property listing all scripts that use a character, broader than the single-valued Script property. Common characters like digits have …

केस मैपिंग

वर्णों को uppercase, lowercase, और titlecase के बीच परिवर्तित करने के नियम। locale-dependent हो सकते हैं (Turkish I समस्या) और …

ग्राफीम क्लस्टर

उपयोगकर्ता द्वारा अनुभव किया गया 'वर्ण' — जो एक एकल इकाई के रूप में महसूस होता है। कई कोड पॉइंट्स …

डिफ़ॉल्ट रूप से अनदेखा

वर्ण जिनका कोई दृश्य प्रभाव नहीं होना चाहिए और उन प्रक्रियाओं द्वारा अनदेखा किया जा सकता है जो उनका समर्थन …

दर्पण गुणधर्म

वे वर्ण जिनकी glyph को RTL संदर्भ में क्षैतिज रूप से प्रतिबिंबित किया जाना चाहिए। उदाहरण: ( → ), [ …

द्विदिशीय श्रेणी

प्रॉपर्टी जो द्विदिशात्मक पाठ (LTR, RTL, weak, neutral) में वर्ण के व्यवहार को निर्धारित करती है। Unicode Bidirectional Algorithm द्वारा …

नाम उपनाम

वर्णों के लिए वैकल्पिक नाम, क्योंकि Unicode नाम स्थिरता नीति के अनुसार नहीं बदले जा सकते। सुधार, संक्षिप्ताक्षर और figments …

ब्लॉक

कोड पॉइंट्स की एक नामित सन्निकट श्रृंखला (जैसे, Basic Latin = U+0000–U+007F)। Unicode 16.0 में 336 blocks परिभाषित हैं; प्रत्येक …

लिपि

वह लिपि जिससे वर्ण संबंधित है (जैसे, Latin, Cyrillic, Han)। Unicode 16.0 में 168 scripts परिभाषित हैं; Script प्रॉपर्टी सुरक्षा …

विघटन

किसी वर्ण का उसके घटक भागों में मैपिंग। Canonical decomposition अर्थ को संरक्षित रखता है (é → e + ́); …

विराम चिह्न

लिखित भाषा को व्यवस्थित और स्पष्ट करने के लिए उपयोग किए जाने वाले वर्ण: periods, commas, dashes, quotation marks, और …

विहित तुल्यता

दो वर्ण अनुक्रम जो शब्दार्थ रूप से समान हैं और उन्हें बराबर माना जाना चाहिए। उदाहरण: é (U+00E9) ≡ e …

संख्यात्मक मान

वर्ण की संख्यात्मक व्याख्या, यदि कोई हो: digit value (0–9), decimal value, या सामान्य संख्यात्मक मान (जैसे, ½ = 0.5, …

संगतता तुल्यता

दो वर्ण अनुक्रम जिनकी समान अमूर्त सामग्री है लेकिन दिखावट में भिन्न हो सकते हैं। Canonical equivalence से व्यापक। उदाहरण: …

संयोजन वर्ग

संख्यात्मक मान (0–254) जो canonical decomposition के दौरान combining marks के क्रम को नियंत्रित करता है, यह निर्धारित करते हुए …

संस्करण गुणधर्म

Unicode संस्करण जिसमें वर्ण पहली बार सौंपा गया था। सिस्टम और सॉफ्टवेयर संस्करणों में वर्ण समर्थन निर्धारित करने के लिए …

सामान्य श्रेणी

प्रत्येक कोड पॉइंट का 30 श्रेणियों (Lu, Ll, Nd, So, आदि) में वर्गीकरण जो 7 प्रमुख वर्गों में समूहीकृत हैं: …

एल्गोरिदम (15)

Case Folding

Mapping characters to a common case form for case-insensitive comparison. More comprehensive than lowercasing: German ß → ss, Turkish İ …

Grapheme Cluster Boundary

Rules (UAX#29) for determining where one user-perceived character ends and another begins. Critical for cursor movement, text selection, and correctly …

NFC (Canonical Composition)

Normalization Form C: canonically decompose करें फिर recompose करें, सबसे छोटा रूप उत्पन्न करते हुए। डेटा संग्रहण और विनिमय के …

NFD (Canonical Decomposition)

Normalization Form D: बिना recomposing के पूरी तरह decompose करें। macOS HFS+ filesystem द्वारा उपयोग किया जाता है। é (U+00E9) …

NFKC (Compatibility Composition)

Normalization Form KC: compatibility decomposition फिर canonical composition। दृश्य रूप से समान वर्णों को विलय करता है (fi→fi, ²→2, Ⅳ→IV)। …

NFKD (Compatibility Decomposition)

Normalization Form KD: बिना recomposing के compatibility decomposition। सबसे आक्रामक normalization, सबसे अधिक formatting जानकारी खोता है।

String Comparison

Comparing Unicode strings requires normalization (NFC/NFD) and optionally collation (locale-aware sorting). Binary comparison of code points alone gives incorrect results …

द्विदिशीय एल्गोरिदम

मिश्रित-दिशा पाठ (जैसे, English + Arabic) में वर्णों के प्रदर्शन क्रम को निर्धारित करने वाला algorithm, वर्ण bidi श्रेणियों और …

पंक्ति विराम एल्गोरिदम

यह निर्धारित करने के नियम कि पाठ कहाँ अगली पंक्ति में wrap हो सकता है, वर्ण प्रॉपर्टीज़, CJK शब्द सीमाओं …

पाठ विभाजन

पाठ में सीमाएँ खोजने के लिए algorithms: grapheme cluster, शब्द, और वाक्य सीमाएँ। cursor movement, text selection और text processing …

वाक्य सीमा

Unicode नियमों के अनुसार वाक्यों के बीच की स्थिति। periods पर विभाजन से अधिक जटिल — संक्षिप्ताक्षर (Mr.), ellipsis (...), …

शब्द सीमा

शब्दों के बीच की स्थिति जैसा कि Unicode word break नियमों द्वारा निर्धारित। रिक्त स्थान पर सरल विभाजन नहीं — …

संयोजन बहिष्करण

Canonical composition (NFC) से बाहर रखे गए वर्ण ताकि non-starter decomposition को रोका जा सके और algorithmic स्थिरता सुनिश्चित की …

सामान्यीकरण

Unicode पाठ को मानक canonical रूप में परिवर्तित करने की प्रक्रिया। चार रूप: NFC (composed), NFD (decomposed), NFKC (compatibility composed), …

सॉर्टिंग एल्गोरिदम

बहु-स्तरीय तुलना का उपयोग करके Unicode strings की तुलना और क्रमबद्ध करने के लिए मानक algorithm: base character → accents …

टाइपोग्राफी (19)

CSS unicode-range

CSS @font-face descriptor specifying which Unicode code points a font should cover. Enables downloading only the font subset needed for …

Em / En (टाइपोग्राफिक इकाइयाँ)

Em: font size के बराबर चौड़ाई। En: एक em का आधा। em dash width, em space, en space, और CSS …

Font Fallback

The mechanism by which a rendering engine substitutes glyphs from a secondary font when the primary font lacks coverage for …

OpenType

Modern font format developed by Microsoft and Adobe supporting up to 65,535 glyphs, advanced typographic features (ligatures, alternates, kerning), and …

RTL (Right-to-Left)

पाठ दिशा जहाँ वर्ण दाएँ से बाएँ प्रवाहित होते हैं। अरबी, हिब्रू, Thaana और अन्य लिपियों में उपयोग किया जाता …

Web Fonts

Fonts downloaded by the browser to render text, declared via CSS @font-face. WOFF2 is the standard format. Unicode subsetting and …

उद्धरण चिह्न

प्रत्यक्ष भाषण या उद्धरण को घेरने वाले युग्मित विराम चिह्न। Unicode में straight (""), curly (""), guillemets (« »), CJK …

कर्निंग

दृश्य सामंजस्य के लिए विशिष्ट वर्ण युग्मों के बीच की दूरी को समायोजित करना (जैसे, AV, To, LT)। यह एक …

ग्लिफ़

फ़ॉन्ट द्वारा रेंडर किया गया किसी वर्ण का दृश्य प्रतिनिधित्व। एक वर्ण के कई glyphs हो सकते हैं (ligatures, contextual …

डैश

वाक्य के भागों को अलग करने या श्रेणियाँ दर्शाने के लिए उपयोग किए जाने वाले विराम चिह्न। Unicode कई dashes …

दीर्घवृत्त

U+2026 HORIZONTAL ELLIPSIS (…)। तीन periods को बदलने वाला एक एकल वर्ण, टाइपोग्राफ़िक रूप से सही और 3 के बजाय …

नॉन-ब्रेकिंग स्पेस

U+00A0। एक space जो अपनी स्थिति पर line breaking को रोकता है। HTML:  । संख्या और इकाइयों के बीच (100 …

फ़ॉन्ट

किसी विशेष आकार, वज़न और शैली में typeface का एक विशिष्ट कार्यान्वयन। डिजिटल टाइपोग्राफी में, glyph परिभाषाओं और metrics युक्त …

रिक्त स्थान वर्ण

वे वर्ण जो क्षैतिज या ऊर्ध्वाधर स्थान दर्शाते हैं लेकिन दृश्य glyph नहीं रखते। Unicode विभिन्न चौड़ाई और line-breaking व्यवहार …

विशेष चिह्न

उच्चारण या अर्थ बदलने के लिए अक्षर में जोड़ा गया चिह्न। precomposed हो सकता है (é U+00E9) या combining (e …

शून्य-चौड़ाई वर्ण

शून्य advance width वाले वर्ण — रेंडरिंग में अदृश्य लेकिन पाठ व्यवहार को प्रभावित करते हैं। इसमें ZWSP (word break), …

संयुक्ताक्षर

दो या अधिक वर्ण जो एक ही glyph में जुड़े हों। टाइपोग्राफ़िक हो सकता है (fi → fi OpenType द्वारा) …

संयोजन वर्ण

एक वर्ण जो पूर्ववर्ती base character से जुड़कर उसे संशोधित करता है। General Category: Mn (nonspacing), Mc (spacing combining), Me …

स्मॉल कैप्स

lowercase अक्षरों की ऊँचाई पर uppercase letterforms। CSS: font-variant: small-caps। Unicode में Latin Extended में वास्तविक small capital letters भी …

इनपुट विधियाँ (9)

Alt कोड

Alt + numpad अंकों का उपयोग करके उनके code page नंबर द्वारा वर्ण टाइप करने की Windows इनपुट विधि (Alt+0169 …

Character Palette

A system-level tool for browsing and inserting Unicode characters. macOS Character Viewer (Ctrl+Cmd+Space), Windows Character Map (charmap.exe), and Linux gucharmap …

Input Method Editor (IME)

मानक keyboard का उपयोग करके जटिल वर्णों (CJK, Korean, आदि) को इनपुट करने में सक्षम सॉफ़्टवेयर घटक, keystroke sequences को …

कम्पोज़ की

एक key (आमतौर पर Right Alt या custom-mapped) जो multi-key composition sequence शुरू करती है। Linux/Unix सुविधा: Compose + a …

डेड की

एक key जो तुरंत कोई आउटपुट नहीं देती बल्कि अगले keystroke को संशोधित करती है। diacritics के लिए उपयोग की …

यूनिकोड इनपुट विधि

Unicode code point द्वारा वर्ण दर्ज करने की कोई भी विधि: hex input (Mac), Ctrl+Shift+U द्वारा U+XXXX प्रविष्टि (Linux), या …

वर्ण चयनकर्ता

वर्णों को दृश्य रूप से ब्राउज़ और चयन करने के लिए UI घटक (native या web-based)। mobile पर emoji pickers …

वर्ण मानचित्र

Unicode वर्णों को ब्राउज़ और सम्मिलित करने के लिए GUI उपयोगिता। Windows: charmap.exe। Mac: Character Viewer (Control+Command+Space)। Linux: gucharmap।

हेक्स इनपुट

hex मान टाइप करके सीधे Unicode code point प्रविष्टि। Mac: Option + hex पकड़ें + छोड़ें। Windows: hex टाइप करें …

वेब और HTML (16)

Content-Type कैरेक्टर सेट

HTTP header parameter जो response की character encoding घोषित करता है (Content-Type: text/html; charset=utf-8)। किसी in-document encoding घोषणा को override …

CSS content प्रॉपर्टी

Unicode escapes का उपयोग करके ::before और ::after pseudo-elements के माध्यम से generated content सम्मिलित करने वाली CSS property: content: …

CSS Text Direction

CSS properties (direction, writing-mode, unicode-bidi) controlling text layout direction. Works with Unicode Bidi Algorithm for mixed LTR/RTL content in web …

HTML इकाई

HTML में किसी वर्ण का पाठीय प्रतिनिधित्व। तीन रूप: named (&), decimal (&), hexadecimal (&)। HTML syntax से टकराने वाले …

Internationalized Domain Name (IDN)

non-ASCII Unicode वर्ण युक्त domain names, आंतरिक रूप से Punycode (xn--...) के रूप में संग्रहीत लेकिन उपयोगकर्ताओं को Unicode में …

JavaScript Intl API

ECMAScript Internationalization API providing locale-aware string comparison (Collator), number formatting (NumberFormat), date formatting (DateTimeFormat), and segmentation (Segmenter).

Punycode

Unicode domain names का ASCII-compatible encoding, अंतर्राष्ट्रीयकृत labels को xn-- उपसर्ग वाले ASCII strings में परिवर्तित करता है। münchen.de → …

Unicode in CSS

CSS supports Unicode via escape sequences (\2713 for ✓), the content property for generated text, unicode-range for font subsetting, and …

XML वर्ण संदर्भ

XML का न्यूमेरिक कैरेक्टर रेफ़रेंस: ✓ या ✓। XML में केवल 5 नामित entities हैं (& < > " '), …

इमोजी प्रस्तुति

किसी वर्ण को रंगीन emoji ग्लिफ़ के साथ रेंडर करना, आमतौर पर Variation Selector 16 (U+FE0F) का उपयोग करके। कुछ …

नामित वर्ण संदर्भ

मानव-पठनीय नाम का उपयोग करने वाली HTML entity: © → ©, — → —। HTML5 में 2,231 named references परिभाषित …

पाठ प्रस्तुति

किसी वर्ण को सादे monochrome टेक्स्ट ग्लिफ़ के साथ रेंडर करना बजाय रंगीन emoji के, आमतौर पर Variation Selector 15 …

प्रतिशत-एन्कोडिंग (URL एन्कोडिंग)

URLs में non-ASCII और आरक्षित वर्णों को प्रत्येक byte को %XX से बदलकर एन्कोड करना। पहले UTF-8 का उपयोग किया …

भिन्नता चयनकर्ता

वे वर्ण (U+FE00–U+FE0F, U+E0100–U+E01EF) जो किसी विशिष्ट ग्लिफ़ वेरिएंट का चयन करते हैं। VS15 (U+FE0E) = टेक्स्ट प्रेज़ेंटेशन, VS16 (U+FE0F) …

शब्द जोड़ने वाला

U+2060। एक शून्य-चौड़ाई वर्ण जो लाइन ब्रेकिंग को रोकता है। यह U+FEFF (BOM) का आधुनिक प्रतिस्थापन है जो शून्य-चौड़ाई नो-ब्रेक …

संख्यात्मक वर्ण संदर्भ

Unicode code point संख्या का उपयोग करने वाली HTML entity: decimal (© → ©) या hexadecimal (© → ©)। named …

प्रोग्रामिंग और विकास (13)

Java Unicode

Java strings use UTF-16 internally. char is 16-bit (only BMP). For supplementary characters, use codePointAt() and Character.toChars(). Java's \uXXXX escapes …

Mojibake

गलत encoding से bytes को decode करने के कारण गड़बड़ हुआ टेक्स्ट। जापानी शब्द (文字化け)। उदाहरण: 'café' को UTF-8 के …

Python Unicode

Python 3 uses Unicode strings by default (str = UTF-8 internally via PEP 393). Key features: \N{name} escapes, unicodedata module, …

Rust Unicode

Rust strings (str/String) are guaranteed valid UTF-8. char type represents a Unicode scalar value (4 bytes). Iteration via .chars() yields …

अदृश्य वर्ण

कोई भी वर्ण जिसका कोई दृश्य ग्लिफ़ नहीं है: whitespace, zero-width वर्ण, control वर्ण, और formatting वर्ण। spoofing और टेक्स्ट …

एन्कोडिंग / डिकोडिंग

Encoding वर्णों को bytes में परिवर्तित करता है (str.encode('utf-8')); decoding bytes को वर्णों में परिवर्तित करता है (bytes.decode('utf-8'))। इसे सही …

नल वर्ण

U+0000 (NUL)। पहला Unicode/ASCII वर्ण, C/C++ में string terminator के रूप में उपयोग किया जाता है। सुरक्षा जोखिम: null byte …

प्रतिस्थापन वर्ण

U+FFFD (�)। जब decoder अमान्य byte sequences का सामना करता है तो प्रदर्शित होता है — 'decoding में कुछ गलत …

यूनिकोड एस्केप अनुक्रम

सोर्स कोड में Unicode वर्णों को दर्शाने के लिए सिंटैक्स। भाषा के अनुसार भिन्न: \u2713 (Python/Java/JS), \u{2713} (JS/Ruby/Rust), \U00012345 (Python/C)।

यूनिकोड रेगुलर एक्सप्रेशन

Unicode properties का उपयोग करने वाले regex पैटर्न: \p{L} (कोई भी अक्षर), \p{Script=Greek} (Greek स्क्रिप्ट), \p{Emoji}। समर्थन भाषा और regex …

सरोगेट जोड़ी

दो 16-bit code units (एक high surrogate U+D800–U+DBFF + low surrogate U+DC00–U+DFFF) जो मिलकर UTF-16 में एक supplementary character को …

स्ट्रिंग

प्रोग्रामिंग भाषा में वर्णों का एक क्रम। आंतरिक प्रतिनिधित्व भिन्न होता है: UTF-8 (Go, Rust, नए Python बिल्ड), UTF-16 (Java, …

स्ट्रिंग लंबाई अस्पष्टता

Unicode string की 'लंबाई' इकाई पर निर्भर करती है: code units (JavaScript .length), code points (Python len()), या grapheme clusters। …

सुरक्षा (10)

Bidi Text Attack

Exploiting Unicode bidirectional control characters to disguise malicious code or filenames. The 'Trojan Source' attack (CVE-2021-42574) uses bidi overrides to …

IDN होमोग्राफ हमला

वैध साइटों का रूप धारण करने के लिए domain names में दृश्य रूप से समान Unicode वर्णों का उपयोग करना। …

Normalization Attack

Exploiting Unicode normalization to bypass security filters. Input validated before normalization may change form after: 'fi' (U+FB01) normalizes to 'fi', …

Zero Width Joiner (ZWJ)

U+200D। अनुरोध करता है कि आसन्न वर्णों को जोड़ा जाए। emoji sequences (👩+ZWJ+💻=👩‍💻) के लिए महत्वपूर्ण। Indic scripts में, ligature …

Zero Width Non-Joiner (ZWNJ)

U+200C। आसन्न वर्णों के जुड़ने को रोकता है। Persian/Arabic में सही अक्षर रूपों के लिए आवश्यक और Devanagari में ligatures …

द्विदिशीय ओवरराइड हमला

दुर्भावनापूर्ण फ़ाइल नामों या कोड को छिपाने के लिए Unicode bidirectional override वर्णों (U+202A–U+202E, U+2066–U+2069) का उपयोग। 'readme‮fdp.exe' 'readmeexe.pdf' के …

भ्रामक वर्ण

वर्ण जोड़ों के लिए Unicode का आधिकारिक शब्द जो दृश्य रूप से भ्रमित किए जा सकते हैं, confusables.txt (UCD) में …

मिश्रित-लिपि पहचान

ऐसे टेक्स्ट की पहचान करना जो विभिन्न scripts के वर्णों को मिलाता है (जैसे, Latin + Cyrillic)। homoglyph हमलों के …

यूनिकोड स्पूफिंग

उपयोगकर्ताओं को धोखा देने के लिए Unicode सुविधाओं का उपयोग: नकली domains के लिए homoglyphs, नकली फ़ाइल extensions के लिए …

समरूप वर्ण

विभिन्न scripts के वर्ण जो समान या बहुत समान दिखते हैं, जैसे Latin 'a' बनाम Cyrillic 'а'। phishing, spoofing, और …

इमोजी (6)

विविध (1)