مسرد Unicode

150 مصطلحًا أساسيًا من مصطلحات Unicode موضّحًا — من أساسيات ترميز المحارف إلى مفاهيم الأمان.

الترميز (17)

ASCII

American Standard Code for Information Interchange. ترميز بـ 7 بت يغطي 128 حرفًا (0–127): أحرف التحكم والأرقام والحروف اللاتينية والرموز …

ASCII Art

Visual art created from text characters, originally limited to the 95 printable ASCII characters. Unicode expands the palette with box-drawing …

Base64

Binary-to-text encoding that represents binary data using 64 ASCII characters (A–Z, a–z, 0–9, +, /). Used for embedding binary data …

Big5

ترميز الأحرف الصينية التقليدية المستخدم بشكل أساسي في تايوان وهونغ كونغ، يرمز حوالي 13,000 حرف CJK.

EBCDIC

Extended Binary Coded Decimal Interchange Code. ترميز أجهزة IBM الرئيسية بنطاقات حروف غير متجاورة، لا يزال يُستخدم في البنوك والأجهزة …

EUC-KR

ترميز الأحرف الكورية بناءً على KS X 1001، يربط مقاطع Hangul وHanja بتسلسلات ثنائية البايت.

GB2312 / GB18030

عائلة ترميز الأحرف الصينية المبسطة: تطور GB2312 (6,763 حرفًا) إلى GBK ثم GB18030، المعيار الوطني الصيني الإلزامي المتوافق مع Unicode.

ISO 8859

عائلة من الترميزات أحادية البايت بـ 8 بت لمجموعات لغوية مختلفة. كان ISO 8859-1 (Latin-1) أساسًا لأول 256 نقطة ترميز …

Shift JIS

ترميز الأحرف اليابانية يجمع ASCII/JIS Roman أحادي البايت مع كانجي JIS X 0208 ثنائي البايت. لا يزال يُستخدم في الأنظمة …

UCS-2

ترميز قديم ثابت الطول بـ 2 بايت يغطي فقط BMP (U+0000–U+FFFF). سلف UTF-16 لا يمكنه تمثيل الأحرف التكميلية.

UTF-16

ترميز Unicode متغير الطول يستخدم 2 أو 4 بايتات (وحدة ترميز واحدة أو اثنتين بـ 16 بت). يُستخدم داخليًا في …

UTF-32

ترميز Unicode ثابت الطول يستخدم 4 بايتات بالضبط لكل حرف. بسيط لكنه غير كفء في استهلاك المساحة؛ يُستخدم داخليًا في …

UTF-8

ترميز Unicode متغير الطول يستخدم 1–4 بايتات لكل حرف. الترميز السائد على الويب (98%+ من المواقع) مع توافق كامل رجعيًا …

Windows-1252

مجموعة Microsoft الفائقة من ISO 8859-1، تضيف علامات الاقتباس الذكية وشرطة Em وعلامة اليورو في النطاق 0x80–0x9F. الترميز القديم "اللاتيني" …

ترميز الأحرف

نظام يربط الأحرف بتسلسلات بايتات للتخزين والنقل الرقمي. كل ملف نصي له ترميز — السؤال هو ما إذا كان معلنًا …

علامة ترتيب البايت

U+FEFF يوضع في بداية تدفق نصي للإشارة إلى ترتيب البايتات والترميز. ضروري لـ UTF-16/32، اختياري وغير مستحسن لـ UTF-8.

مجموعة أحرف IANA

سجل رسمي لأسماء ترميز الأحرف تحتفظ به IANA، يُستخدم في ترويسات HTTP Content-Type وMIME (مثل charset=utf-8).

معيار يونيكود (25)

Basic Multilingual Plane (BMP)

المستوى 0 (U+0000–U+FFFF)، يحتوي على الأحرف الأكثر استخدامًا بما في ذلك اللاتينية واليونانية والسيريلية وCJK والعربية ومعظم الرموز. الأحرف هنا …

CJK

الصينية واليابانية والكورية — المصطلح الجامع لكتلة الأيديوغرافات الهانية الموحدة والنصوص ذات الصلة في Unicode. CJK Unified Ideographs تحتوي على …

Han Unification

The process of mapping Chinese, Japanese, and Korean ideographs that share a common historical origin to a single Unicode code …

Hangul Jamo

The individual consonant and vowel components (jamo) of the Korean Hangul writing system. Unicode encodes both precomposed Hangul syllables (U+AC00–U+D7A3) …

ISO 10646 / Universal Character Set

معيار دولي (ISO/IEC 10646) متزامن مع Unicode، يحدد نفس مجموعة الأحرف ونقاط الترميز لكن بدون خوارزميات وخصائص Unicode الإضافية.

Unicode

معيار ترميز أحرف عالمي يخصص رقمًا فريدًا (نقطة ترميز) لكل حرف في كل نظام كتابة. يحتوي الإصدار 16.0 على 154,998 …

Unicode Character Database (UCD)

مجموعة ملفات بيانات قابلة للقراءة آليًا تحدد جميع خصائص أحرف Unicode، بما في ذلك UnicodeData.txt وBlocks.txt وScripts.txt وغيرها الكثير.

Unicode Standard Annex (UAX)

Normative or informative documents that are integral parts of the Unicode Standard. UAX#9 (Bidi Algorithm), UAX#11 (East Asian Width), UAX#15 …

Unicode Technical Report (UTR)

Informational documents published by the Unicode Consortium covering specific topics like security mechanisms (UTR#39), text segmentation (UTR#29), and line breaking …

إصدار يونيكود

إصدارات رئيسية من معيار Unicode، كل منها يضيف أحرفًا ونصوصًا وميزات جديدة. الإصدار الحالي هو Unicode 16.0 (سبتمبر 2025).

اتحاد يونيكود

منظمة غير ربحية تطور وتحافظ على معيار Unicode. يشمل الأعضاء Apple وGoogle وMicrosoft وMeta وآخرين كثيرين.

البديل

نقاط ترميز U+D800–U+DFFF محجوزة حصريًا لأزواج UTF-16 البديلة. ليست قيم Unicode العددية الصالحة ولا يجب أن تظهر كأحرف مستقلة.

الحرف المجرد

وحدة معلومات تُستخدم لتنظيم أو التحكم أو تمثيل البيانات النصية — الكيان المفاهيمي قبل أن يحصل على نقطة رمز.

الحرف المعيَّن

نقطة ترميز أُعطيت تسمية حرف في إصدار Unicode. اعتبارًا من Unicode 16.0، 154,998 نقطة ترميز معينة من أصل 1,114,112 ممكنة.

القيمة القياسية ليونيكود

أي نقطة رمز باستثناء نقاط رموز البديل (U+D800–U+DFFF)؛ مجموعة القيم الصالحة التي يمكن أن تمثل أحرفًا فعلية، بإجمالي 1,112,064 قيمة.

المستوى

كتلة متجاورة من 65,536 نقطة ترميز. يحتوي Unicode على 17 مستوى (0–16): المستوى 0 هو BMP، المستوى 1 هو SMP …

المستوى التكميلي

المستويات 1–16 (U+10000–U+10FFFF)، تحتوي على إيموجي ونصوص تاريخية وامتدادات CJK وتدوين موسيقي. تتطلب أزواج بديلة في UTF-16.

سياسة استقرار يونيكود

ضمان أنه بمجرد تعيين حرف، لا تتغير نقطة ترميزه واسمه أبدًا. قد يتم تحسين الخصائص لكن التعيينات دائمة.

غير الحرف

نقاط ترميز محجوزة بشكل دائم للاستخدام الداخلي (66 إجمالاً): U+FDD0–U+FDEF وU+nFFFE/U+nFFFF لكل مستوى. صالحة في النص لكن لا يجب تبادلها …

فضاء الترميز

النطاق الكامل لنقاط ترميز Unicode الممكنة: U+0000 إلى U+10FFFF (1,114,112 إجمالاً)، مقسم إلى 17 مستوى من 65,536 نقطة ترميز لكل …

منطقة الاستخدام الخاص

نطاقات محجوزة حيث يمكن للمؤسسات تخصيص أحرفها الخاصة: BMP PUA (U+E000–U+F8FF) بالإضافة إلى PUAs تكميلية في المستويين 15 و16.

نقطة الترميز

قيمة عددية في فضاء ترميز Unicode (U+0000 إلى U+10FFFF)، تُكتب كـ U+XXXX. ليست كل نقاط الترميز معينة لأحرف.

نقطة ترميز غير معيَّنة

نقطة رمز لم تُسند بعد لحرف في أي إصدار من Unicode، وتُصنّف كـ Cn (Unassigned)؛ قد تُسند في إصدارات مستقبلية.

نقطة ترميز محجوزة

نقطة رمز محجوزة للتقييس المستقبلي، وتختلف عن noncharacters (المحجوزة بشكل دائم) ومناطق الاستخدام الخاص (القابلة للتعيين من المستخدم).

وحدة الترميز

الوحدة الأصغر للترميز: بايت 8 بت في UTF-8، كلمة 16 بت في UTF-16، كلمة 32 بت في UTF-32. قد يتطلب …

الخصائص (19)

East Asian Width

Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or Neutral. Wide characters (CJK ideographs, katakana) occupy two …

Joining Type

Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. Types include Right_Joining, Left_Joining, Dual_Joining, and Non_Joining.

Script Extensions

Unicode property listing all scripts that use a character, broader than the single-valued Script property. Common characters like digits have …

اسم مستعار

أسماء بديلة للأحرف، نظرًا لأن أسماء Unicode لا يمكن تغييرها وفقًا لسياسة الاستقرار؛ تُستخدم للتصحيحات والاختصارات والمسميات الخيالية.

التحليل

تحويل الحرف إلى مكوناته؛ التفكيك الكنسي يحافظ على المعنى (é → e + ́)، بينما التفكيك التوافقي قد يغيره (fi …

التكافؤ الأساسي

تسلسلان من الأحرف متطابقان دلاليًا ويجب معاملتهما كمتساويين؛ مثال: é (U+00E9) ≡ e + ◌́ (U+0065 + U+0301).

الفئة العامة

تصنيف كل نقطة رمز إلى واحدة من 30 فئة (Lu, Ll, Nd, So، إلخ) مجمّعة في 7 فئات رئيسية: Letter, …

القيمة العددية

التفسير الرقمي للحرف إن وُجد: قيمة الرقم (0–9)، قيمة عشرية، أو قيمة رقمية عامة (مثلاً ½ = 0.5، Ⅳ = …

تحويل حالة الأحرف

قواعد تحويل الأحرف بين الأحرف الكبيرة والصغيرة وأحرف العنوان؛ قد تعتمد على اللغة (مشكلة I التركية) وتكون من واحد لعدة …

تكافؤ التوافق

تسلسلان من الأحرف لهما نفس المحتوى المجرد لكن قد يختلفان في المظهر؛ أوسع من التكافؤ الكنسي، مثال: fi ≈ fi، …

خاصية الإصدار

إصدار Unicode الذي أُسند فيه الحرف لأول مرة؛ مفيد لتحديد دعم الأحرف عبر الأنظمة وإصدارات البرامج.

خاصية الانعكاس

أحرف يجب أن ينعكس رسمها أفقيًا في سياق RTL؛ أمثلة: ( → )، [ → ]، { → }، « …

علامات الترقيم

أحرف تُستخدم لتنظيم وتوضيح اللغة المكتوبة: نقاط، فواصل، شرطات، علامات اقتباس، وغيرها. الفئة العامة P في Unicode تغطي كل علامات …

عنقود الجرافيم

'الحرف' كما يدركه المستخدم — ما يبدو كوحدة واحدة؛ قد يتكون من نقاط رموز متعددة (قاعدة + علامات مركّبة، أو …

فئة الدمج

قيمة رقمية (0–254) تتحكم في ترتيب العلامات المركّبة أثناء التفكيك الكنسي، وتحدد أي العلامات المركّبة يمكن إعادة ترتيبها.

فئة ثنائية الاتجاه

خاصية تحدد كيفية تصرف الحرف في النص ثنائي الاتجاه (LTR, RTL، ضعيف، محايد)؛ تُستخدم بواسطة Unicode Bidirectional Algorithm لتحديد ترتيب …

قابل للتجاهل افتراضياً

أحرف يجب ألا يكون لها تأثير مرئي ويمكن تجاهلها من قبل العمليات التي لا تدعمها، بما في ذلك محددات الاختلاف …

كتلة

نطاق متصل مسمّى من نقاط الرموز (مثلاً Basic Latin = U+0000–U+007F)؛ يُعرّف Unicode 16.0 ما مجموعه 336 كتلة، وكل نقطة …

نظام الكتابة

نظام الكتابة الذي ينتمي إليه الحرف (مثل Latin أو Cyrillic أو Han)؛ يُعرّف Unicode 16.0 ما مجموعه 168 نظام كتابة، …

الخوارزميات (15)

Case Folding

Mapping characters to a common case form for case-insensitive comparison. More comprehensive than lowercasing: German ß → ss, Turkish İ …

Grapheme Cluster Boundary

Rules (UAX#29) for determining where one user-perceived character ends and another begins. Critical for cursor movement, text selection, and correctly …

NFC (Canonical Composition)

Normalization Form C: تفكيك ثم إعادة تركيب كنسيًا، مما ينتج أقصر صيغة؛ موصى به لتخزين البيانات والتبادل، وهو الصيغة المعيارية …

NFD (Canonical Decomposition)

Normalization Form D: تفكيك كامل دون إعادة تركيب؛ تستخدمه نظام ملفات macOS HFS+؛ é (U+00E9) → e + ◌́ (U+0065 …

NFKC (Compatibility Composition)

Normalization Form KC: تفكيك توافقي ثم تركيب كنسي؛ يدمج الأحرف المتشابهة بصريًا (fi→fi، ²→2، Ⅳ→IV)؛ يُستخدم لمقارنة المعرّفات.

NFKD (Compatibility Decomposition)

Normalization Form KD: تفكيك توافقي دون إعادة تركيب؛ التطبيع الأكثر عدوانية، مع فقدان أكبر قدر من معلومات التنسيق.

String Comparison

Comparing Unicode strings requires normalization (NFC/NFD) and optionally collation (locale-aware sorting). Binary comparison of code points alone gives incorrect results …

استثناء التركيب

أحرف مستثناة من التركيب الكنسي (NFC) لمنع تفكيك non-starter وضمان استقرار الخوارزمية؛ مدرجة في CompositionExclusions.txt.

التطبيع

عملية تحويل نص Unicode إلى صيغة كنسية موحدة؛ أربع صيغ: NFC (مركّب)، NFD (مفكّك)، NFKC (توافقي مركّب)، NFKD (توافقي مفكّك).

تجزئة النص

خوارزميات لإيجاد الحدود في النص: حدود grapheme cluster والكلمة والجملة؛ حاسمة لحركة المؤشر واختيار النص ومعالجة النصوص.

حد الجملة

الموضع بين الجمل وفقًا لقواعد Unicode؛ أكثر تعقيدًا من الفصل على النقاط — يتعامل مع الاختصارات (Mr.)، علامات الحذف (...)، …

حد الكلمة

الموضع بين الكلمات كما تحدده قواعد Unicode لفصل الكلمات؛ ليس مجرد فصل على المسافات — يتعامل مع CJK (بدون مسافات) …

خوارزمية الترتيب

خوارزمية معيارية لمقارنة وترتيب سلاسل Unicode باستخدام مقارنة متعددة المستويات: الحرف الأساسي → علامات التشكيل → حالة الحرف → فواصل …

خوارزمية ثنائية الاتجاه

خوارزمية تحدد ترتيب عرض الأحرف في النص متعدد الاتجاهات (مثلاً إنجليزي + عربي)، باستخدام فئات bidi للأحرف والتجاوزات الاتجاهية الصريحة.

خوارزمية كسر السطر

قواعد تحديد أين يمكن لف النص إلى السطر التالي، مع مراعاة خصائص الأحرف وحدود كلمات CJK وفرص الفصل.

الطباعة الفنية (19)

CSS unicode-range

CSS @font-face descriptor specifying which Unicode code points a font should cover. Enables downloading only the font subset needed for …

Em / En (وحدات طباعية)

Em: عرض يساوي حجم الخط. En: نصف em. يُستخدم لتحديد عرض em dash، مسافة em، مسافة en، ووحدات CSS (1em، …

Font Fallback

The mechanism by which a rendering engine substitutes glyphs from a secondary font when the primary font lacks coverage for …

OpenType

Modern font format developed by Microsoft and Adobe supporting up to 65,535 glyphs, advanced typographic features (ligatures, alternates, kerning), and …

RTL (Right-to-Left)

اتجاه النص حيث تتدفق الأحرف من اليمين إلى اليسار. تستخدمه العربية والعبرية والتانا والكتابات الأخرى؛ يتطلب Bidirectional Algorithm للعرض الصحيح.

Web Fonts

Fonts downloaded by the browser to render text, declared via CSS @font-face. WOFF2 is the standard format. Unicode subsetting and …

التقنين

ضبط المسافة بين أزواج أحرف معينة للانسجام البصري (مثل AV، To، LT). ميزة خط وليست مفهوم Unicode، لكنها تؤثر على …

الحرف المركب

حرفان أو أكثر متصلان في شكل واحد. يمكن أن يكون طباعيًا (fi → fi عبر OpenType) أو حرف Unicode (fi …

الخط الطباعي

تنفيذ محدد لتصميم خط بحجم ووزن ونمط معينين. في الطباعة الرقمية، ملف خط (TTF، OTF، WOFF2) يحتوي على تعريفات الأشكال …

الرمز الخطي

التمثيل البصري للحرف كما يعرضه الخط. قد يكون للحرف الواحد عدة أشكال (ligatures، أشكال سياقية)؛ وقد يمثل الشكل الواحد عدة …

الشرطة

علامات ترقيم تستخدم لفصل أجزاء الجملة أو الإشارة إلى نطاقات. يحدد Unicode عدة شرطات: واصلة (‐)، en dash (–)، em …

العلامة التشكيلية

علامة تُضاف إلى حرف لتغيير النطق أو المعنى. يمكن أن تكون مركبة مسبقًا (é U+00E9) أو تجميعية (e + ◌́ …

حرف عرضه صفر

أحرف بعرض تقدم صفري — غير مرئية في العرض لكنها تؤثر على سلوك النص. تشمل ZWSP (فاصل كلمات)، ZWJ (وصل)، …

حرف مدمج

حرف يلتصق بالحرف الأساسي السابق لتعديله. الفئة العامة: Mn (غير متباعد)، Mc (تجميعي متباعد)، Me (محيط). مثال: ◌́ (U+0301 Combining …

حروف كبيرة صغيرة

أشكال حروف كبيرة بارتفاع الحروف الصغيرة. CSS: font-variant: small-caps. يحتوي Unicode أيضًا على أحرف كبيرة صغيرة فعلية في Latin Extended …

علامة الاقتباس

علامات ترقيم مزدوجة تحيط بالكلام المباشر أو الاقتباسات. يتضمن Unicode علامات مستقيمة ("")، منحنية ("")، guillemets (« »)، أقواس CJK …

مسافة بيضاء

أحرف تمثل مساحة أفقية أو عمودية لكن ليس لها شكل مرئي. يحدد Unicode أكثر من 17 حرف مسافة بعروض وسلوكيات …

مسافة غير منكسرة

U+00A0. مسافة تمنع فصل السطر عند موضعها. HTML:  . تُستخدم بين الأرقام والوحدات (100 km)، في الأسماء (Mr. Smith)، وبعد …

نقاط الحذف

U+2026 HORIZONTAL ELLIPSIS (…). حرف واحد يحل محل ثلاث نقاط، صحيح طباعيًا ويُحسب كحرف واحد بدلاً من 3.

طرق الإدخال (9)

Character Palette

A system-level tool for browsing and inserting Unicode characters. macOS Character Viewer (Ctrl+Cmd+Space), Windows Character Map (charmap.exe), and Linux gucharmap …

Input Method Editor (IME)

مكون برمجي يتيح إدخال أحرف معقدة (CJK، كورية، إلخ) باستخدام لوحة مفاتيح قياسية، محولاً تسلسلات المفاتيح إلى أحرف عبر المطابقة …

الإدخال السداسي عشري

إدخال نقطة ترميز Unicode مباشرة بكتابة القيمة الست عشرية. Mac: اضغط مطولاً Option + hex + إفلات. Windows: اكتب hex …

المفتاح الميت

مفتاح لا ينتج مخرجات فورية لكنه يعدل الضغطة التالية. يُستخدم للتشكيل: الضغط على ` ثم e ينتج è. شائع في …

خريطة الأحرف

أداة رسومية لتصفح وإدراج أحرف Unicode. Windows: charmap.exe. Mac: عارض الأحرف (Control+Command+Space). Linux: gucharmap.

رمز Alt

طريقة إدخال Windows باستخدام Alt + أرقام لوحة الأرقام لكتابة أحرف برقم صفحة الترميز (Alt+0169 → ©، Alt+0176 → °). …

طريقة إدخال يونيكود

أي طريقة لإدخال أحرف بنقطة ترميزها Unicode: إدخال ست عشري (Mac)، إدخال U+XXXX عبر Ctrl+Shift+U (Linux)، أو Alt+X (تطبيقات Windows).

مفتاح الإنشاء

مفتاح (عادةً Right Alt أو مخصص) يبدأ تسلسل تركيب متعدد المفاتيح. ميزة Linux/Unix: Compose + a + e → æ. …

منتقي الأحرف

مكون واجهة (أصلي أو على الويب) لتصفح واختيار الأحرف بصريًا. منتقيات الإيموجي على الهواتف هي المثال الأكثر شيوعًا.

الويب و HTML (16)

CSS Text Direction

CSS properties (direction, writing-mode, unicode-bidi) controlling text layout direction. Works with Unicode Bidi Algorithm for mixed LTR/RTL content in web …

Internationalized Domain Name (IDN)

أسماء نطاقات تحتوي على أحرف Unicode غير ASCII، مخزنة داخليًا كـ Punycode (xn--...) لكن تُعرض بـ Unicode للمستخدمين. مشكلة أمنية: …

JavaScript Intl API

ECMAScript Internationalization API providing locale-aware string comparison (Collator), number formatting (NumberFormat), date formatting (DateTimeFormat), and segmentation (Segmenter).

Punycode

ترميز متوافق مع ASCII لأسماء نطاقات Unicode، محولاً التسميات الدولية إلى نصوص ASCII بادئة xn--. münchen.de → xn--mnchen-3ya.de.

Unicode in CSS

CSS supports Unicode via escape sequences (\2713 for ✓), the content property for generated text, unicode-range for font subsetting, and …

الترميز المئوي (ترميز URL)

ترميز أحرف غير ASCII والأحرف المحجوزة في URLs باستبدال كل بايت بـ %XX. يُستخدم UTF-8 أولاً، ثم يُرمّز كل بايت …

خاصية CSS content

خاصية CSS لإدراج محتوى مُولّد عبر عناصر pseudo ::before و::after باستخدام Unicode escapes: content: "\2713" يدرج ✓.

عرض الرموز التعبيرية

عرض الحرف بشكل إيموجي ملون، عادةً باستخدام Variation Selector 16 (U+FE0F). بعض الأحرف تُعرض افتراضياً كإيموجي والبعض الآخر كنص.

عرض النص

عرض الحرف بشكل رسومي نصي أحادي اللون بدلاً من إيموجي ملون، عادةً باستخدام Variation Selector 15 (U+FE0E) لتجاوز العرض الافتراضي …

كيان HTML

تمثيل نصي لحرف في HTML. ثلاثة أشكال: مسمى (&)، عشري (&)، ست عشري (&). أساسي للأحرف التي تتعارض مع بناء …

مجموعة أحرف Content-Type

معامل ترويسة HTTP يعلن ترميز الأحرف للاستجابة (Content-Type: text/html; charset=utf-8). يتجاوز أي إعلان ترميز داخل المستند.

محدد التنويع

محددات الشكل (U+FE00–U+FE0F, U+E0100–U+E01EF) التي تختار شكلاً محدداً للحرف. VS15 (U+FE0E) = عرض نصي، VS16 (U+FE0F) = عرض إيموجي.

مرجع الحرف الرقمي

كيان HTML باستخدام رقم نقطة ترميز Unicode: عشري (© → ©) أو ست عشري (© → ©). يعمل مع أي …

مرجع الحرف المسمى

كيان HTML باستخدام اسم مقروء: © → ©، — → —. يحدد HTML5 2,231 مرجعًا مسمى؛ وهي حساسة لحالة الأحرف.

مرجع الحرف في XML

نسخة XML من المراجع الرقمية للأحرف: ✓ أو ✓. لدى XML خمسة كيانات مسماة فقط (& < > " ')، …

واصل الكلمات

U+2060. حرف بعرض صفري يمنع كسر السطر. البديل الحديث لـ U+FEFF (BOM) كمسافة بعرض صفري بدون كسر سطر.

البرمجة والتطوير (13)

Java Unicode

Java strings use UTF-16 internally. char is 16-bit (only BMP). For supplementary characters, use codePointAt() and Character.toChars(). Java's \uXXXX escapes …

Mojibake

نص مشوّه ناتج عن فك تشفير البايتات بترميز خاطئ. مصطلح ياباني (文字化け). مثال: 'café' مخزّن بـ UTF-8 لكن يُقرأ بـ …

Python Unicode

Python 3 uses Unicode strings by default (str = UTF-8 internally via PEP 393). Key features: \N{name} escapes, unicodedata module, …

Rust Unicode

Rust strings (str/String) are guaranteed valid UTF-8. char type represents a Unicode scalar value (4 bytes). Iteration via .chars() yields …

التشفير / فك التشفير

الترميز يحوّل الأحرف إلى بايتات (str.encode('utf-8'))؛ فك الترميز يحوّل البايتات إلى أحرف (bytes.decode('utf-8')). إتقان هذا يمنع mojibake.

التعبير النمطي ليونيكود

أنماط Regex باستخدام خصائص Unicode: \p{L} (أي حرف)، \p{Script=Greek} (نص يوناني)، \p{Emoji}. الدعم يختلف حسب اللغة ومحرك Regex.

تسلسل الهروب ليونيكود

صيغة لتمثيل أحرف Unicode في الكود المصدري. تختلف حسب اللغة: \u2713 (Python/Java/JS)، \u{2713} (JS/Ruby/Rust)، \U00012345 (Python/C).

حرف الاستبدال

U+FFFD (�). يُعرض عندما يواجه فاك التشفير تسلسلات بايتات غير صالحة — الرمز العالمي لـ 'حدث خطأ في فك التشفير'.

حرف الفراغ

U+0000 (NUL). أول حرف في Unicode/ASCII، يُستخدم كمُنهٍ للنصوص في C/C++. خطر أمني: حقن null byte يمكن أن يقطع النصوص …

حرف غير مرئي

أي حرف بدون شكل رسومي مرئي: مسافات بيضاء، أحرف بعرض صفري، أحرف تحكم، وأحرف تنسيق. قد يسبب مشاكل أمنية مثل …

زوج البديل

وحدتا ترميز 16-بت (بديل علوي U+D800–U+DBFF + بديل سفلي U+DC00–U+DFFF) يُمثلان معاً حرفاً تكميلياً في UTF-16. 😀 = D83D DE00.

سلسلة الأحرف

تسلسل من الأحرف في لغة برمجة. التمثيل الداخلي يختلف: UTF-8 (Go وRust وإصدارات Python الحديثة)، UTF-16 (Java وJavaScript وC#)، أو …

غموض طول السلسلة

طول النص في Unicode يعتمد على الوحدة: وحدات الترميز (JavaScript .length)، نقاط الترميز (Python len())، أو عناقيد الحروف الرسومية. 👨‍👩‍👧‍👦 …

الأمان (10)

Bidi Text Attack

Exploiting Unicode bidirectional control characters to disguise malicious code or filenames. The 'Trojan Source' attack (CVE-2021-42574) uses bidi overrides to …

Normalization Attack

Exploiting Unicode normalization to bypass security filters. Input validated before normalization may change form after: 'fi' (U+FB01) normalizes to 'fi', …

Zero Width Joiner (ZWJ)

U+200D. يطلب ربط الأحرف المتجاورة. حاسم لتسلسلات الإيموجي (👩+ZWJ+💻=👩‍💻). في النصوص الهندية، يطلب تشكيل الحرف المركب. يمكن أيضاً إخفاء حدود …

Zero Width Non-Joiner (ZWNJ)

U+200C. يمنع ربط الأحرف المتجاورة. أساسي في الفارسية/العربية لأشكال الحروف الصحيحة ويُستخدم في Devanagari لمنع الحروف المركبة.

الحرف المتماثل

أحرف من نصوص مختلفة تبدو متطابقة أو متشابهة جداً، مثل 'a' اللاتيني مقابل 'а' السيريلي. تُستخدم في التصيّد والانتحال والهندسة …

الكشف عن الأنظمة الكتابية المختلطة

تحديد نص يخلط أحرفاً من نصوص مختلفة (مثلاً، لاتيني + سيريلي). دفاع أساسي ضد هجمات homoglyph؛ المتصفحات تستخدم هذا لتفعيل …

انتحال هوية يونيكود

استخدام ميزات Unicode للخداع: homoglyphs لنطاقات مزيفة، تجاوزات ثنائية الاتجاه لامتدادات ملفات مزيفة، أو أحرف غير مرئية لنص مخفي.

حرف قابل للتشابه

المصطلح الرسمي في Unicode لأزواج الأحرف التي قد تُخلط بصرياً، محددة في confusables.txt (UCD). أوسع من homoglyphs — تشمل المتشابهة …

هجوم المتماثلات في IDN

استخدام أحرف Unicode متشابهة بصرياً في أسماء النطاقات لانتحال مواقع شرعية. аpple.com (а سيريلي) يبدو مثل apple.com. المتصفحات تدافع بقواعد …

هجوم تجاوز ثنائي الاتجاه

استخدام أحرف تجاوز الاتجاه الثنائي في Unicode (U+202A–U+202E, U+2066–U+2069) لتمويه أسماء ملفات أو كود ضار. 'readme‮fdp.exe' يُعرض كـ 'readmeexe.pdf'.

الرموز التعبيرية (6)

متنوع (1)