مسرد Unicode
150 مصطلحًا أساسيًا من مصطلحات Unicode موضّحًا — من أساسيات ترميز المحارف إلى مفاهيم الأمان.
الترميز (17)
American Standard Code for Information Interchange. ترميز بـ 7 بت يغطي 128 حرفًا (0–127): أحرف التحكم والأرقام والحروف اللاتينية والرموز …
Visual art created from text characters, originally limited to the 95 printable ASCII characters. Unicode expands the palette with box-drawing …
Binary-to-text encoding that represents binary data using 64 ASCII characters (A–Z, a–z, 0–9, +, /). Used for embedding binary data …
ترميز الأحرف الصينية التقليدية المستخدم بشكل أساسي في تايوان وهونغ كونغ، يرمز حوالي 13,000 حرف CJK.
Extended Binary Coded Decimal Interchange Code. ترميز أجهزة IBM الرئيسية بنطاقات حروف غير متجاورة، لا يزال يُستخدم في البنوك والأجهزة …
ترميز الأحرف الكورية بناءً على KS X 1001، يربط مقاطع Hangul وHanja بتسلسلات ثنائية البايت.
عائلة ترميز الأحرف الصينية المبسطة: تطور GB2312 (6,763 حرفًا) إلى GBK ثم GB18030، المعيار الوطني الصيني الإلزامي المتوافق مع Unicode.
عائلة من الترميزات أحادية البايت بـ 8 بت لمجموعات لغوية مختلفة. كان ISO 8859-1 (Latin-1) أساسًا لأول 256 نقطة ترميز …
ترميز الأحرف اليابانية يجمع ASCII/JIS Roman أحادي البايت مع كانجي JIS X 0208 ثنائي البايت. لا يزال يُستخدم في الأنظمة …
ترميز قديم ثابت الطول بـ 2 بايت يغطي فقط BMP (U+0000–U+FFFF). سلف UTF-16 لا يمكنه تمثيل الأحرف التكميلية.
ترميز Unicode متغير الطول يستخدم 2 أو 4 بايتات (وحدة ترميز واحدة أو اثنتين بـ 16 بت). يُستخدم داخليًا في …
ترميز Unicode ثابت الطول يستخدم 4 بايتات بالضبط لكل حرف. بسيط لكنه غير كفء في استهلاك المساحة؛ يُستخدم داخليًا في …
ترميز Unicode متغير الطول يستخدم 1–4 بايتات لكل حرف. الترميز السائد على الويب (98%+ من المواقع) مع توافق كامل رجعيًا …
مجموعة Microsoft الفائقة من ISO 8859-1، تضيف علامات الاقتباس الذكية وشرطة Em وعلامة اليورو في النطاق 0x80–0x9F. الترميز القديم "اللاتيني" …
نظام يربط الأحرف بتسلسلات بايتات للتخزين والنقل الرقمي. كل ملف نصي له ترميز — السؤال هو ما إذا كان معلنًا …
U+FEFF يوضع في بداية تدفق نصي للإشارة إلى ترتيب البايتات والترميز. ضروري لـ UTF-16/32، اختياري وغير مستحسن لـ UTF-8.
سجل رسمي لأسماء ترميز الأحرف تحتفظ به IANA، يُستخدم في ترويسات HTTP Content-Type وMIME (مثل charset=utf-8).
معيار يونيكود (25)
المستوى 0 (U+0000–U+FFFF)، يحتوي على الأحرف الأكثر استخدامًا بما في ذلك اللاتينية واليونانية والسيريلية وCJK والعربية ومعظم الرموز. الأحرف هنا …
الصينية واليابانية والكورية — المصطلح الجامع لكتلة الأيديوغرافات الهانية الموحدة والنصوص ذات الصلة في Unicode. CJK Unified Ideographs تحتوي على …
The process of mapping Chinese, Japanese, and Korean ideographs that share a common historical origin to a single Unicode code …
The individual consonant and vowel components (jamo) of the Korean Hangul writing system. Unicode encodes both precomposed Hangul syllables (U+AC00–U+D7A3) …
معيار دولي (ISO/IEC 10646) متزامن مع Unicode، يحدد نفس مجموعة الأحرف ونقاط الترميز لكن بدون خوارزميات وخصائص Unicode الإضافية.
معيار ترميز أحرف عالمي يخصص رقمًا فريدًا (نقطة ترميز) لكل حرف في كل نظام كتابة. يحتوي الإصدار 16.0 على 154,998 …
مجموعة ملفات بيانات قابلة للقراءة آليًا تحدد جميع خصائص أحرف Unicode، بما في ذلك UnicodeData.txt وBlocks.txt وScripts.txt وغيرها الكثير.
Normative or informative documents that are integral parts of the Unicode Standard. UAX#9 (Bidi Algorithm), UAX#11 (East Asian Width), UAX#15 …
Informational documents published by the Unicode Consortium covering specific topics like security mechanisms (UTR#39), text segmentation (UTR#29), and line breaking …
إصدارات رئيسية من معيار Unicode، كل منها يضيف أحرفًا ونصوصًا وميزات جديدة. الإصدار الحالي هو Unicode 16.0 (سبتمبر 2025).
منظمة غير ربحية تطور وتحافظ على معيار Unicode. يشمل الأعضاء Apple وGoogle وMicrosoft وMeta وآخرين كثيرين.
نقاط ترميز U+D800–U+DFFF محجوزة حصريًا لأزواج UTF-16 البديلة. ليست قيم Unicode العددية الصالحة ولا يجب أن تظهر كأحرف مستقلة.
وحدة معلومات تُستخدم لتنظيم أو التحكم أو تمثيل البيانات النصية — الكيان المفاهيمي قبل أن يحصل على نقطة رمز.
نقطة ترميز أُعطيت تسمية حرف في إصدار Unicode. اعتبارًا من Unicode 16.0، 154,998 نقطة ترميز معينة من أصل 1,114,112 ممكنة.
أي نقطة رمز باستثناء نقاط رموز البديل (U+D800–U+DFFF)؛ مجموعة القيم الصالحة التي يمكن أن تمثل أحرفًا فعلية، بإجمالي 1,112,064 قيمة.
كتلة متجاورة من 65,536 نقطة ترميز. يحتوي Unicode على 17 مستوى (0–16): المستوى 0 هو BMP، المستوى 1 هو SMP …
المستويات 1–16 (U+10000–U+10FFFF)، تحتوي على إيموجي ونصوص تاريخية وامتدادات CJK وتدوين موسيقي. تتطلب أزواج بديلة في UTF-16.
ضمان أنه بمجرد تعيين حرف، لا تتغير نقطة ترميزه واسمه أبدًا. قد يتم تحسين الخصائص لكن التعيينات دائمة.
نقاط ترميز محجوزة بشكل دائم للاستخدام الداخلي (66 إجمالاً): U+FDD0–U+FDEF وU+nFFFE/U+nFFFF لكل مستوى. صالحة في النص لكن لا يجب تبادلها …
النطاق الكامل لنقاط ترميز Unicode الممكنة: U+0000 إلى U+10FFFF (1,114,112 إجمالاً)، مقسم إلى 17 مستوى من 65,536 نقطة ترميز لكل …
نطاقات محجوزة حيث يمكن للمؤسسات تخصيص أحرفها الخاصة: BMP PUA (U+E000–U+F8FF) بالإضافة إلى PUAs تكميلية في المستويين 15 و16.
قيمة عددية في فضاء ترميز Unicode (U+0000 إلى U+10FFFF)، تُكتب كـ U+XXXX. ليست كل نقاط الترميز معينة لأحرف.
نقطة رمز لم تُسند بعد لحرف في أي إصدار من Unicode، وتُصنّف كـ Cn (Unassigned)؛ قد تُسند في إصدارات مستقبلية.
نقطة رمز محجوزة للتقييس المستقبلي، وتختلف عن noncharacters (المحجوزة بشكل دائم) ومناطق الاستخدام الخاص (القابلة للتعيين من المستخدم).
الوحدة الأصغر للترميز: بايت 8 بت في UTF-8، كلمة 16 بت في UTF-16، كلمة 32 بت في UTF-32. قد يتطلب …
الخصائص (19)
Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or Neutral. Wide characters (CJK ideographs, katakana) occupy two …
Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. Types include Right_Joining, Left_Joining, Dual_Joining, and Non_Joining.
Unicode property listing all scripts that use a character, broader than the single-valued Script property. Common characters like digits have …
أسماء بديلة للأحرف، نظرًا لأن أسماء Unicode لا يمكن تغييرها وفقًا لسياسة الاستقرار؛ تُستخدم للتصحيحات والاختصارات والمسميات الخيالية.
تحويل الحرف إلى مكوناته؛ التفكيك الكنسي يحافظ على المعنى (é → e + ́)، بينما التفكيك التوافقي قد يغيره (fi …
تسلسلان من الأحرف متطابقان دلاليًا ويجب معاملتهما كمتساويين؛ مثال: é (U+00E9) ≡ e + ◌́ (U+0065 + U+0301).
تصنيف كل نقطة رمز إلى واحدة من 30 فئة (Lu, Ll, Nd, So، إلخ) مجمّعة في 7 فئات رئيسية: Letter, …
التفسير الرقمي للحرف إن وُجد: قيمة الرقم (0–9)، قيمة عشرية، أو قيمة رقمية عامة (مثلاً ½ = 0.5، Ⅳ = …
قواعد تحويل الأحرف بين الأحرف الكبيرة والصغيرة وأحرف العنوان؛ قد تعتمد على اللغة (مشكلة I التركية) وتكون من واحد لعدة …
تسلسلان من الأحرف لهما نفس المحتوى المجرد لكن قد يختلفان في المظهر؛ أوسع من التكافؤ الكنسي، مثال: fi ≈ fi، …
إصدار Unicode الذي أُسند فيه الحرف لأول مرة؛ مفيد لتحديد دعم الأحرف عبر الأنظمة وإصدارات البرامج.
أحرف يجب أن ينعكس رسمها أفقيًا في سياق RTL؛ أمثلة: ( → )، [ → ]، { → }، « …
أحرف تُستخدم لتنظيم وتوضيح اللغة المكتوبة: نقاط، فواصل، شرطات، علامات اقتباس، وغيرها. الفئة العامة P في Unicode تغطي كل علامات …
'الحرف' كما يدركه المستخدم — ما يبدو كوحدة واحدة؛ قد يتكون من نقاط رموز متعددة (قاعدة + علامات مركّبة، أو …
قيمة رقمية (0–254) تتحكم في ترتيب العلامات المركّبة أثناء التفكيك الكنسي، وتحدد أي العلامات المركّبة يمكن إعادة ترتيبها.
خاصية تحدد كيفية تصرف الحرف في النص ثنائي الاتجاه (LTR, RTL، ضعيف، محايد)؛ تُستخدم بواسطة Unicode Bidirectional Algorithm لتحديد ترتيب …
أحرف يجب ألا يكون لها تأثير مرئي ويمكن تجاهلها من قبل العمليات التي لا تدعمها، بما في ذلك محددات الاختلاف …
نطاق متصل مسمّى من نقاط الرموز (مثلاً Basic Latin = U+0000–U+007F)؛ يُعرّف Unicode 16.0 ما مجموعه 336 كتلة، وكل نقطة …
نظام الكتابة الذي ينتمي إليه الحرف (مثل Latin أو Cyrillic أو Han)؛ يُعرّف Unicode 16.0 ما مجموعه 168 نظام كتابة، …
الخوارزميات (15)
Mapping characters to a common case form for case-insensitive comparison. More comprehensive than lowercasing: German ß → ss, Turkish İ …
Rules (UAX#29) for determining where one user-perceived character ends and another begins. Critical for cursor movement, text selection, and correctly …
Normalization Form C: تفكيك ثم إعادة تركيب كنسيًا، مما ينتج أقصر صيغة؛ موصى به لتخزين البيانات والتبادل، وهو الصيغة المعيارية …
Normalization Form D: تفكيك كامل دون إعادة تركيب؛ تستخدمه نظام ملفات macOS HFS+؛ é (U+00E9) → e + ◌́ (U+0065 …
Normalization Form KC: تفكيك توافقي ثم تركيب كنسي؛ يدمج الأحرف المتشابهة بصريًا (fi→fi، ²→2، Ⅳ→IV)؛ يُستخدم لمقارنة المعرّفات.
Normalization Form KD: تفكيك توافقي دون إعادة تركيب؛ التطبيع الأكثر عدوانية، مع فقدان أكبر قدر من معلومات التنسيق.
Comparing Unicode strings requires normalization (NFC/NFD) and optionally collation (locale-aware sorting). Binary comparison of code points alone gives incorrect results …
أحرف مستثناة من التركيب الكنسي (NFC) لمنع تفكيك non-starter وضمان استقرار الخوارزمية؛ مدرجة في CompositionExclusions.txt.
عملية تحويل نص Unicode إلى صيغة كنسية موحدة؛ أربع صيغ: NFC (مركّب)، NFD (مفكّك)، NFKC (توافقي مركّب)، NFKD (توافقي مفكّك).
خوارزميات لإيجاد الحدود في النص: حدود grapheme cluster والكلمة والجملة؛ حاسمة لحركة المؤشر واختيار النص ومعالجة النصوص.
الموضع بين الجمل وفقًا لقواعد Unicode؛ أكثر تعقيدًا من الفصل على النقاط — يتعامل مع الاختصارات (Mr.)، علامات الحذف (...)، …
الموضع بين الكلمات كما تحدده قواعد Unicode لفصل الكلمات؛ ليس مجرد فصل على المسافات — يتعامل مع CJK (بدون مسافات) …
خوارزمية معيارية لمقارنة وترتيب سلاسل Unicode باستخدام مقارنة متعددة المستويات: الحرف الأساسي → علامات التشكيل → حالة الحرف → فواصل …
خوارزمية تحدد ترتيب عرض الأحرف في النص متعدد الاتجاهات (مثلاً إنجليزي + عربي)، باستخدام فئات bidi للأحرف والتجاوزات الاتجاهية الصريحة.
قواعد تحديد أين يمكن لف النص إلى السطر التالي، مع مراعاة خصائص الأحرف وحدود كلمات CJK وفرص الفصل.
الطباعة الفنية (19)
CSS @font-face descriptor specifying which Unicode code points a font should cover. Enables downloading only the font subset needed for …
Em: عرض يساوي حجم الخط. En: نصف em. يُستخدم لتحديد عرض em dash، مسافة em، مسافة en، ووحدات CSS (1em، …
The mechanism by which a rendering engine substitutes glyphs from a secondary font when the primary font lacks coverage for …
Modern font format developed by Microsoft and Adobe supporting up to 65,535 glyphs, advanced typographic features (ligatures, alternates, kerning), and …
اتجاه النص حيث تتدفق الأحرف من اليمين إلى اليسار. تستخدمه العربية والعبرية والتانا والكتابات الأخرى؛ يتطلب Bidirectional Algorithm للعرض الصحيح.
Fonts downloaded by the browser to render text, declared via CSS @font-face. WOFF2 is the standard format. Unicode subsetting and …
ضبط المسافة بين أزواج أحرف معينة للانسجام البصري (مثل AV، To، LT). ميزة خط وليست مفهوم Unicode، لكنها تؤثر على …
حرفان أو أكثر متصلان في شكل واحد. يمكن أن يكون طباعيًا (fi → fi عبر OpenType) أو حرف Unicode (fi …
تنفيذ محدد لتصميم خط بحجم ووزن ونمط معينين. في الطباعة الرقمية، ملف خط (TTF، OTF، WOFF2) يحتوي على تعريفات الأشكال …
التمثيل البصري للحرف كما يعرضه الخط. قد يكون للحرف الواحد عدة أشكال (ligatures، أشكال سياقية)؛ وقد يمثل الشكل الواحد عدة …
علامات ترقيم تستخدم لفصل أجزاء الجملة أو الإشارة إلى نطاقات. يحدد Unicode عدة شرطات: واصلة (‐)، en dash (–)، em …
علامة تُضاف إلى حرف لتغيير النطق أو المعنى. يمكن أن تكون مركبة مسبقًا (é U+00E9) أو تجميعية (e + ◌́ …
أحرف بعرض تقدم صفري — غير مرئية في العرض لكنها تؤثر على سلوك النص. تشمل ZWSP (فاصل كلمات)، ZWJ (وصل)، …
حرف يلتصق بالحرف الأساسي السابق لتعديله. الفئة العامة: Mn (غير متباعد)، Mc (تجميعي متباعد)، Me (محيط). مثال: ◌́ (U+0301 Combining …
أشكال حروف كبيرة بارتفاع الحروف الصغيرة. CSS: font-variant: small-caps. يحتوي Unicode أيضًا على أحرف كبيرة صغيرة فعلية في Latin Extended …
علامات ترقيم مزدوجة تحيط بالكلام المباشر أو الاقتباسات. يتضمن Unicode علامات مستقيمة ("")، منحنية ("")، guillemets (« »)، أقواس CJK …
أحرف تمثل مساحة أفقية أو عمودية لكن ليس لها شكل مرئي. يحدد Unicode أكثر من 17 حرف مسافة بعروض وسلوكيات …
U+00A0. مسافة تمنع فصل السطر عند موضعها. HTML: . تُستخدم بين الأرقام والوحدات (100 km)، في الأسماء (Mr. Smith)، وبعد …
U+2026 HORIZONTAL ELLIPSIS (…). حرف واحد يحل محل ثلاث نقاط، صحيح طباعيًا ويُحسب كحرف واحد بدلاً من 3.
طرق الإدخال (9)
A system-level tool for browsing and inserting Unicode characters. macOS Character Viewer (Ctrl+Cmd+Space), Windows Character Map (charmap.exe), and Linux gucharmap …
مكون برمجي يتيح إدخال أحرف معقدة (CJK، كورية، إلخ) باستخدام لوحة مفاتيح قياسية، محولاً تسلسلات المفاتيح إلى أحرف عبر المطابقة …
إدخال نقطة ترميز Unicode مباشرة بكتابة القيمة الست عشرية. Mac: اضغط مطولاً Option + hex + إفلات. Windows: اكتب hex …
مفتاح لا ينتج مخرجات فورية لكنه يعدل الضغطة التالية. يُستخدم للتشكيل: الضغط على ` ثم e ينتج è. شائع في …
أداة رسومية لتصفح وإدراج أحرف Unicode. Windows: charmap.exe. Mac: عارض الأحرف (Control+Command+Space). Linux: gucharmap.
طريقة إدخال Windows باستخدام Alt + أرقام لوحة الأرقام لكتابة أحرف برقم صفحة الترميز (Alt+0169 → ©، Alt+0176 → °). …
أي طريقة لإدخال أحرف بنقطة ترميزها Unicode: إدخال ست عشري (Mac)، إدخال U+XXXX عبر Ctrl+Shift+U (Linux)، أو Alt+X (تطبيقات Windows).
مفتاح (عادةً Right Alt أو مخصص) يبدأ تسلسل تركيب متعدد المفاتيح. ميزة Linux/Unix: Compose + a + e → æ. …
مكون واجهة (أصلي أو على الويب) لتصفح واختيار الأحرف بصريًا. منتقيات الإيموجي على الهواتف هي المثال الأكثر شيوعًا.
الويب و HTML (16)
CSS properties (direction, writing-mode, unicode-bidi) controlling text layout direction. Works with Unicode Bidi Algorithm for mixed LTR/RTL content in web …
أسماء نطاقات تحتوي على أحرف Unicode غير ASCII، مخزنة داخليًا كـ Punycode (xn--...) لكن تُعرض بـ Unicode للمستخدمين. مشكلة أمنية: …
ECMAScript Internationalization API providing locale-aware string comparison (Collator), number formatting (NumberFormat), date formatting (DateTimeFormat), and segmentation (Segmenter).
ترميز متوافق مع ASCII لأسماء نطاقات Unicode، محولاً التسميات الدولية إلى نصوص ASCII بادئة xn--. münchen.de → xn--mnchen-3ya.de.
CSS supports Unicode via escape sequences (\2713 for ✓), the content property for generated text, unicode-range for font subsetting, and …
ترميز أحرف غير ASCII والأحرف المحجوزة في URLs باستبدال كل بايت بـ %XX. يُستخدم UTF-8 أولاً، ثم يُرمّز كل بايت …
خاصية CSS لإدراج محتوى مُولّد عبر عناصر pseudo ::before و::after باستخدام Unicode escapes: content: "\2713" يدرج ✓.
عرض الحرف بشكل إيموجي ملون، عادةً باستخدام Variation Selector 16 (U+FE0F). بعض الأحرف تُعرض افتراضياً كإيموجي والبعض الآخر كنص.
عرض الحرف بشكل رسومي نصي أحادي اللون بدلاً من إيموجي ملون، عادةً باستخدام Variation Selector 15 (U+FE0E) لتجاوز العرض الافتراضي …
تمثيل نصي لحرف في HTML. ثلاثة أشكال: مسمى (&)، عشري (&)، ست عشري (&). أساسي للأحرف التي تتعارض مع بناء …
معامل ترويسة HTTP يعلن ترميز الأحرف للاستجابة (Content-Type: text/html; charset=utf-8). يتجاوز أي إعلان ترميز داخل المستند.
محددات الشكل (U+FE00–U+FE0F, U+E0100–U+E01EF) التي تختار شكلاً محدداً للحرف. VS15 (U+FE0E) = عرض نصي، VS16 (U+FE0F) = عرض إيموجي.
كيان HTML باستخدام رقم نقطة ترميز Unicode: عشري (© → ©) أو ست عشري (© → ©). يعمل مع أي …
كيان HTML باستخدام اسم مقروء: © → ©، — → —. يحدد HTML5 2,231 مرجعًا مسمى؛ وهي حساسة لحالة الأحرف.
نسخة XML من المراجع الرقمية للأحرف: ✓ أو ✓. لدى XML خمسة كيانات مسماة فقط (& < > " ')، …
U+2060. حرف بعرض صفري يمنع كسر السطر. البديل الحديث لـ U+FEFF (BOM) كمسافة بعرض صفري بدون كسر سطر.
البرمجة والتطوير (13)
Java strings use UTF-16 internally. char is 16-bit (only BMP). For supplementary characters, use codePointAt() and Character.toChars(). Java's \uXXXX escapes …
نص مشوّه ناتج عن فك تشفير البايتات بترميز خاطئ. مصطلح ياباني (文字化け). مثال: 'café' مخزّن بـ UTF-8 لكن يُقرأ بـ …
Python 3 uses Unicode strings by default (str = UTF-8 internally via PEP 393). Key features: \N{name} escapes, unicodedata module, …
Rust strings (str/String) are guaranteed valid UTF-8. char type represents a Unicode scalar value (4 bytes). Iteration via .chars() yields …
الترميز يحوّل الأحرف إلى بايتات (str.encode('utf-8'))؛ فك الترميز يحوّل البايتات إلى أحرف (bytes.decode('utf-8')). إتقان هذا يمنع mojibake.
أنماط Regex باستخدام خصائص Unicode: \p{L} (أي حرف)، \p{Script=Greek} (نص يوناني)، \p{Emoji}. الدعم يختلف حسب اللغة ومحرك Regex.
صيغة لتمثيل أحرف Unicode في الكود المصدري. تختلف حسب اللغة: \u2713 (Python/Java/JS)، \u{2713} (JS/Ruby/Rust)، \U00012345 (Python/C).
U+FFFD (�). يُعرض عندما يواجه فاك التشفير تسلسلات بايتات غير صالحة — الرمز العالمي لـ 'حدث خطأ في فك التشفير'.
U+0000 (NUL). أول حرف في Unicode/ASCII، يُستخدم كمُنهٍ للنصوص في C/C++. خطر أمني: حقن null byte يمكن أن يقطع النصوص …
أي حرف بدون شكل رسومي مرئي: مسافات بيضاء، أحرف بعرض صفري، أحرف تحكم، وأحرف تنسيق. قد يسبب مشاكل أمنية مثل …
وحدتا ترميز 16-بت (بديل علوي U+D800–U+DBFF + بديل سفلي U+DC00–U+DFFF) يُمثلان معاً حرفاً تكميلياً في UTF-16. 😀 = D83D DE00.
تسلسل من الأحرف في لغة برمجة. التمثيل الداخلي يختلف: UTF-8 (Go وRust وإصدارات Python الحديثة)، UTF-16 (Java وJavaScript وC#)، أو …
طول النص في Unicode يعتمد على الوحدة: وحدات الترميز (JavaScript .length)، نقاط الترميز (Python len())، أو عناقيد الحروف الرسومية. 👨👩👧👦 …
الأمان (10)
Exploiting Unicode bidirectional control characters to disguise malicious code or filenames. The 'Trojan Source' attack (CVE-2021-42574) uses bidi overrides to …
Exploiting Unicode normalization to bypass security filters. Input validated before normalization may change form after: 'fi' (U+FB01) normalizes to 'fi', …
U+200D. يطلب ربط الأحرف المتجاورة. حاسم لتسلسلات الإيموجي (👩+ZWJ+💻=👩💻). في النصوص الهندية، يطلب تشكيل الحرف المركب. يمكن أيضاً إخفاء حدود …
U+200C. يمنع ربط الأحرف المتجاورة. أساسي في الفارسية/العربية لأشكال الحروف الصحيحة ويُستخدم في Devanagari لمنع الحروف المركبة.
أحرف من نصوص مختلفة تبدو متطابقة أو متشابهة جداً، مثل 'a' اللاتيني مقابل 'а' السيريلي. تُستخدم في التصيّد والانتحال والهندسة …
تحديد نص يخلط أحرفاً من نصوص مختلفة (مثلاً، لاتيني + سيريلي). دفاع أساسي ضد هجمات homoglyph؛ المتصفحات تستخدم هذا لتفعيل …
استخدام ميزات Unicode للخداع: homoglyphs لنطاقات مزيفة، تجاوزات ثنائية الاتجاه لامتدادات ملفات مزيفة، أو أحرف غير مرئية لنص مخفي.
المصطلح الرسمي في Unicode لأزواج الأحرف التي قد تُخلط بصرياً، محددة في confusables.txt (UCD). أوسع من homoglyphs — تشمل المتشابهة …
استخدام أحرف Unicode متشابهة بصرياً في أسماء النطاقات لانتحال مواقع شرعية. аpple.com (а سيريلي) يبدو مثل apple.com. المتصفحات تدافع بقواعد …
استخدام أحرف تجاوز الاتجاه الثنائي في Unicode (U+202A–U+202E, U+2066–U+2069) لتمويه أسماء ملفات أو كود ضار. 'readmefdp.exe' يُعرض كـ 'readmeexe.pdf'.
الرموز التعبيرية (6)
أحرف تصويرية في Unicode نشأت من الهواتف المحمولة اليابانية. الآن 3,790+ إيموجي عبر كتل متعددة (Emoticons, Misc Symbols & Pictographs, …
Multi-character emoji constructed by combining base emoji with modifiers, ZWJ characters, or variation selectors. Types include keycap sequences (#️⃣), flag …
Five Fitzpatrick scale modifiers (U+1F3FB–U+1F3FF, 🏻–🏿) that change human emoji skin color. Applied by appending the modifier after a base …
26 حرفاً (U+1F1E6–U+1F1FF, 🇦–🇿) تتحد في أزواج لتشكيل إيموجي أعلام الدول بناءً على رموز ISO 3166-1. 🇺+🇸 = 🇺🇸.
إيموجي مُنشأ بربط إيموجيات متعددة بـ Zero Width Joiner (U+200D). 👨👩👧👦 = رجل + ZWJ + امرأة + ZWJ + …
معدّلات لون البشرة حسب مقياس Fitzpatrick (U+1F3FB–U+1F3FF) التي تغيّر لون بشرة الإيموجي البشري بوضعها مباشرة بعد إيموجي بشري أساسي.