Unicode Sözlüğü
150 temel Unicode terimi açıklandı — karakter kodlama temellerinden güvenlik kavramlarına kadar.
Kodlama (17)
American Standard Code for Information Interchange. 128 karakteri (0–127) kapsayan 7-bit kodlama: kontrol karakterleri, rakamlar, Latin harfleri ve temel semboller.
Visual art created from text characters, originally limited to the 95 printable ASCII characters. Unicode expands the palette with box-drawing …
Binary-to-text encoding that represents binary data using 64 ASCII characters (A–Z, a–z, 0–9, +, /). Used for embedding binary data …
Byte sırasını ve kodlamayı belirtmek için bir metin akışının başına yerleştirilen U+FEFF. UTF-16/32 için gerekli, UTF-8 için isteğe bağlı ve …
Öncelikle Tayvan ve Hong Kong'da kullanılan, yaklaşık 13.000 CJK karakteri kodlayan Geleneksel Çince karakter kodlaması.
Extended Binary Coded Decimal Interchange Code. Bitişik olmayan harf aralıklarına sahip IBM anabilgisayar kodlaması, hala bankacılık ve kurumsal anabilgisayarlarda kullanılır.
KS X 1001'e dayanan Korece karakter kodlaması, Hangul heceleri ve Hanja'yı çift-byte dizilerine eşler.
Basitleştirilmiş Çince karakter kodlama ailesi: GB2312 (6.763 karakter) GBK'ya, ardından zorunlu Unicode uyumlu Çin ulusal standardı GB18030'a evrilmiştir.
IANA tarafından sürdürülen, HTTP Content-Type başlıklarında ve MIME'de kullanılan resmi karakter kodlama adları kaydı (örn. charset=utf-8).
Farklı dil grupları için 8-bit tek-byte kodlama ailesi. ISO 8859-1 (Latin-1), Unicode'un ilk 256 kod noktasının temelini oluşturmuştur.
Karakterleri dijital depolama ve iletim için byte dizilerine eşleyen sistem. Her metin dosyasının bir kodlaması vardır — soru doğru şekilde …
Tek-byte ASCII/JIS Roman ile çift-byte JIS X 0208 kanji'yi birleştiren Japonca karakter kodlaması. Hala eski Japon sistemlerinde kullanılır.
Yalnızca BMP'yi (U+0000–U+FFFF) kapsayan eski sabit uzunluklu 2-byte kodlama. UTF-16'nın öncülü olup ek karakterleri temsil edemez.
16-bit'lik 1 veya 2 kod birimi kullanarak 2 veya 4 byte ile çalışan değişken uzunluklu Unicode kodlaması. Java, JavaScript ve …
Karakter başına tam olarak 4 byte kullanan sabit uzunluklu Unicode kodlaması. Basit ancak alan verimsiz; Python 3 (CPython) tarafından dahili …
Karakter başına 1–4 byte kullanan değişken uzunluklu Unicode kodlaması. Web'in baskın kodlaması (%98+ web sitesi) ve tam ASCII geriye uyumluluğu …
Microsoft'un ISO 8859-1'in üst kümesi, 0x80–0x9F aralığında akıllı tırnaklar, em tire ve euro işareti ekler. En yaygın eski "Latin" kodlaması.
Unicode Standardı (25)
Henüz hiçbir Unicode sürümünde bir karaktere atanmamış kod noktası, Cn (Atanmamış) olarak kategorize edilir. Gelecek sürümlerde atanabilir.
Bir Unicode sürümünde karakter ataması yapılmış kod noktası. Unicode 16.0 itibariyle, 1.114.112 olası kod noktasından 154.998'i atanmıştır.
Gelecekteki standardizasyon için ayrılmış kod noktası; kalıcı olarak ayrılan noncharacter'lardan ve kullanıcı tarafından atanabilen özel kullanım alanlarından farklıdır.
Düzlem 0 (U+0000–U+FFFF), Latin, Yunan, Kiril, CJK, Arap ve çoğu sembol dahil en yaygın kullanılan karakterleri içerir. Buradaki karakterler tek …
Çince, Japonca ve Korece — Unicode'da birleştirilmiş Han ideograf bloğu ve ilgili alfabeler için toplu terim. CJK Unified Ideographs 20.992+ …
65.536 kod noktasından oluşan bitişik blok. Unicode'da 17 düzlem vardır (0–16): Düzlem 0 BMP, Düzlem 1 SMP (emoji, tarihi yazılar), …
Düzlem 1–16 (U+10000–U+10FFFF), emoji, tarihi yazılar, CJK uzantıları ve müzik notasyonu içerir. UTF-16'da vekil çiftler gerektirir.
The process of mapping Chinese, Japanese, and Korean ideographs that share a common historical origin to a single Unicode code …
The individual consonant and vowel components (jamo) of the Korean Hangul writing system. Unicode encodes both precomposed Hangul syllables (U+AC00–U+D7A3) …
Unicode ile senkronize edilmiş, aynı karakter repertuvarını ve kod noktalarını tanımlayan ancak Unicode'un ek algoritmaları ve özellikleri olmayan uluslararası standart …
Dahili kullanım için kalıcı olarak ayrılmış kod noktaları (toplam 66): U+FDD0–U+FDEF ve her düzlem için U+nFFFE/U+nFFFF. Metinde geçerlidir ancak harici …
Unicode kod noktalarının tam aralığı: U+0000 ile U+10FFFF arası (toplam 1.114.112), her biri 65.536 kod noktasından oluşan 17 düzleme bölünmüştür.
Kodlamanın minimal birimi: UTF-8'de 8-bit byte, UTF-16'da 16-bit word, UTF-32'de 32-bit word. Tek bir karakter birden fazla kod birimi gerektirebilir.
Unicode kod alanındaki sayısal değer (U+0000 ile U+10FFFF arası), U+XXXX şeklinde yazılır. Tüm kod noktaları karakterlere atanmış değildir.
Metinsel verileri düzenlemek, kontrol etmek veya temsil etmek için kullanılan bilgi birimi — kod noktası almadan önceki kavramsal varlık.
Her yazı sistemindeki her karaktere benzersiz bir sayı (kod noktası) atayan evrensel karakter kodlama standardı. Sürüm 16.0, 154.998 atanmış karakter …
UnicodeData.txt, Blocks.txt, Scripts.txt ve daha birçok dosya dahil tüm Unicode karakter özelliklerini tanımlayan makine tarafından okunabilir veri dosyaları koleksiyonu.
Bir karakter atandığında, kod noktasının ve adının asla değişmeyeceği garantisi. Özellikler geliştirilebilir ancak atamalar kalıcıdır.
Unicode Standardını geliştiren ve sürdüren kar amacı gütmeyen organizasyon. Üyeleri arasında Apple, Google, Microsoft, Meta ve daha birçok kuruluş bulunur.
Vekil kod noktaları (U+D800–U+DFFF) hariç herhangi bir kod noktası. Gerçek karakterleri temsil edebilen geçerli değerler kümesi, toplam 1.112.064 değer.
Normative or informative documents that are integral parts of the Unicode Standard. UAX#9 (Bidi Algorithm), UAX#11 (East Asian Width), UAX#15 …
Her biri yeni karakterler, yazılar ve özellikler ekleyen Unicode Standardının ana sürümleri. Güncel sürüm Unicode 16.0'dır (Eylül 2025).
Informational documents published by the Unicode Consortium covering specific topics like security mechanisms (UTR#39), text segmentation (UTR#29), and line breaking …
UTF-16 vekil çiftleri için özel olarak ayrılmış U+D800–U+DFFF kod noktaları. Geçerli Unicode skaler değerleri değildir ve asla bağımsız karakter olarak …
Kuruluşların kendi karakterlerini atayabileceği ayrılmış aralıklar: BMP PUA (U+E000–U+F8FF) ve Düzlem 15 ve 16'daki Ek PUA'lar.
Özellikler (19)
Karakter için alternatif isimler; Unicode isimleri kararlılık politikası gereği değiştirilemediğinden kullanılır. Düzeltmeler, kısaltmalar ve hayali karakterler için kullanılır.
Bir karakterin bileşen parçalarına eşlenmesi. Kanonik ayrıştırma anlamı korur (é → e + ́); uyumluluk ayrıştırması anlamı değiştirebilir (fi → …
Birleştirme işaretlerinin kanonik ayrıştırma sırasındaki sıralamasını kontrol eden sayısal değer (0–254), hangi birleştirme işaretlerinin yeniden sıralanabileceğini belirler.
Adlandırılmış bitişik kod noktası aralığı (örneğin, Basic Latin = U+0000–U+007F). Unicode 16.0, 336 blok tanımlar; her kod noktası tam olarak …
Karakterleri büyük harf, küçük harf ve başlık harfi arasında dönüştürme kuralları. Yerel ayara bağlı olabilir (Türkçe I problemi) ve bire-çok …
Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or Neutral. Wide characters (CJK ideographs, katakana) occupy two …
Her kod noktasının 30 kategoriden birine (Lu, Ll, Nd, So, vb.) sınıflandırılması; 7 ana sınıfa gruplandırılır: Letter, Mark, Number, Punctuation, …
Kullanıcının algıladığı 'karakter' — tek bir birim gibi hissettiren öğe. Birden fazla kod noktasından oluşabilir (taban + birleştirme işaretleri veya …
Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. Types include Right_Joining, Left_Joining, Dual_Joining, and Non_Joining.
Anlamsal olarak özdeş olan ve eşit kabul edilmesi gereken iki karakter dizisi. Örnek: é (U+00E9) ≡ e + ◌́ (U+0065 …
Yazılı dili düzenlemek ve netleştirmek için kullanılan karakterler: noktalar, virgüller, tireler, tırnak işaretleri ve daha fazlası. Unicode Genel Kategori P …
Bir karakterin varsa sayısal yorumu: basamak değeri (0–9), ondalık değer veya genel sayısal değer (örneğin, ½ = 0.5, Ⅳ = …
Unicode property listing all scripts that use a character, broader than the single-valued Script property. Common characters like digits have …
Aynı soyut içeriğe sahip ancak görünümde farklılık gösterebilen iki karakter dizisi. Kanonik eşdeğerlikten daha geniştir. Örnek: fi ≈ fi, ² …
Görünür bir etkisi olmaması gereken ve bunları desteklemeyen işlemler tarafından yok sayılabilen karakterler; varyasyon seçicileri, sıfır genişlikli karakterler ve dil …
Bir karakterin ilk kez atandığı Unicode sürümü. Sistemler ve yazılım sürümleri arasında karakter desteğini belirlemek için yararlıdır.
RTL bağlamda glifinin yatay olarak aynalı hale getirilmesi gereken karakterler. Örnekler: ( → ), [ → ], { → }, …
Bir karakterin ait olduğu yazı sistemi (örneğin, Latin, Cyrillic, Han). Unicode 16.0, 168 yazı sistemi tanımlar; Script özelliği güvenlik ve …
Çift yönlü metinde bir karakterin nasıl davrandığını belirleyen özellik (LTR, RTL, zayıf, nötr). Unicode Bidirectional Algorithm tarafından görüntüleme sırasını belirlemek …
Algoritmalar (15)
Başlatıcı olmayan ayrıştırmayı önlemek ve algoritmik kararlılığı sağlamak için kanonik birleştirmeden (NFC) hariç tutulan karakterler. CompositionExclusions.txt dosyasında listelenir.
Mapping characters to a common case form for case-insensitive comparison. More comprehensive than lowercasing: German ß → ss, Turkish İ …
Unicode kurallarına göre cümleler arasındaki konum. Noktalara göre bölmekten daha karmaşıktır — kısaltmaları (Mr.), üç nokta (...) ve ondalık noktaları …
Rules (UAX#29) for determining where one user-perceived character ends and another begins. Critical for cursor movement, text selection, and correctly …
Unicode dizilerini çok seviyeli karşılaştırma kullanarak karşılaştırma ve sıralama için standart algoritma: temel karakter → aksanlar → büyük/küçük harf → …
Unicode kelime kesme kurallarına göre belirlenen kelimeler arasındaki konum. Boşluklara göre basit bölme değildir — CJK'yı (boşluk yok), kısaltmaları ve …
Metinde sınır bulma algoritmaları: grafem kümesi, kelime ve cümle sınırları. İmleç hareketi, metin seçimi ve metin işleme için kritik öneme …
Normalization Form C: kanonik olarak ayrıştırıp sonra yeniden birleştirerek en kısa formu üretir. Veri depolama ve değişimi için önerilir; web …
Normalization Form D: yeniden birleştirmeden tamamen ayrıştırır. macOS HFS+ dosya sistemi tarafından kullanılır. é (U+00E9) → e + ◌́ (U+0065 …
Normalization Form KC: uyumluluk ayrıştırması ardından kanonik birleştirme. Görsel olarak benzer karakterleri birleştirir (fi→fi, ²→2, Ⅳ→IV). Tanımlayıcı karşılaştırması için kullanılır.
Normalization Form KD: yeniden birleştirme olmadan uyumluluk ayrıştırması. En agresif normalleştirme, en fazla biçimlendirme bilgisini kaybeder.
Unicode metnini standart kanonik forma dönüştürme işlemi. Dört form: NFC (birleştirilmiş), NFD (ayrıştırılmış), NFKC (uyumluluk birleştirilmiş), NFKD (uyumluluk ayrıştırılmış).
Metnin bir sonraki satıra sarılabileceği yerleri belirleyen kurallar; karakter özelliklerini, CJK kelime sınırlarını ve kesme fırsatlarını dikkate alır.
Comparing Unicode strings requires normalization (NFC/NFD) and optionally collation (locale-aware sorting). Binary comparison of code points alone gives incorrect results …
Karışık yönlü metinde karakterlerin görüntüleme sırasını belirleyen algoritma (örneğin, İngilizce + Arapça), karakter bidi kategorilerini ve açık yönlü geçersiz kılmaları …
Tipografi (19)
Telaffuzu veya anlamı değiştirmek için harfe eklenen işaret. Önceden birleştirilmiş (é U+00E9) veya birleştirici (e + ◌́ U+0065+U+0301) olabilir. Aksanlar, …
İki veya daha fazla karakterin tek bir glyph olarak birleştirilmesi. Tipografik olabilir (fi → fi OpenType ile) veya Unicode karakter …
Önceki temel karaktere eklenerek onu değiştiren karakter. Genel Kategori: Mn (boşluksuz), Mc (boşluklu birleştirici), Me (çevreleyen). Örnek: ◌́ (U+0301 Combining …
Yatay veya dikey boşluğu temsil eden ancak görünür glyph'i olmayan karakterler. Unicode, farklı genişliklere ve satır kırma davranışlarına sahip 17+ …
U+00A0. O konumda satır kırılmasını engelleyen boşluk. HTML: . Sayılar ve birimler arasında (100 km), özel isimlerde (Bay Ahmet) ve …
CSS @font-face descriptor specifying which Unicode code points a font should cover. Enables downloading only the font subset needed for …
Em: yazı tipi boyutuna eşit bir genişlik. En: bir em'in yarısı. Em tire genişliği, em boşluk, en boşluk ve CSS …
The mechanism by which a rendering engine substitutes glyphs from a secondary font when the primary font lacks coverage for …
Bir karakterin yazı tipi tarafından görsel olarak temsil edilme şekli. Bir karakter birden fazla glyph'e sahip olabilir (bitişik harfler, bağlamsal …
Görsel uyum için belirli karakter çiftleri arasındaki boşluğu ayarlama (örneğin, AV, To, LT). Bir yazı tipi özelliği, Unicode kavramı değil, …
Küçük harf yüksekliğinde büyük harf biçimleri. CSS: font-variant: small-caps. Unicode ayrıca Latin Extended'de gerçek küçük büyük harfler içerir (ᴀ–ᴢ).
Modern font format developed by Microsoft and Adobe supporting up to 65,535 glyphs, advanced typographic features (ligatures, alternates, kerning), and …
Karakterlerin sağdan sola aktığı metin yönü. Arapça, İbranice, Thaana ve diğer yazı sistemlerinde kullanılır; doğru gösterim için Bidirectional Algorithm gerektirir.
Sıfır genişliğe sahip karakterler — gösterimde görünmez ancak metin davranışını etkiler. ZWSP (kelime kırma), ZWJ (birleştir), ZWNJ (birleştirmeyi engelle) ve …
Cümlenin bölümlerini ayırmak veya aralıkları belirtmek için kullanılan noktalama işaretleri. Unicode birden fazla tire tanımlar: kısa tire (‐), en tire …
Doğrudan konuşma veya alıntıları çevreleyen eşleştirilmiş noktalama işaretleri. Unicode düz (""), kıvrık (""), guillemets (« »), CJK köşeli parantezler (「」) …
Fonts downloaded by the browser to render text, declared via CSS @font-face. WOFF2 is the standard format. Unicode subsetting and …
Belirli bir boyut, kalınlık ve stilde bir yazı tipinin uygulanması. Dijital tipografide, glyph tanımları ve ölçümleri içeren bir yazı tipi …
U+2026 HORIZONTAL ELLIPSIS (…). Üç noktayı değiştiren tek karakter, tipografik olarak doğru ve 3 yerine 1 karakter olarak sayılır.
Giriş Yöntemleri (9)
Alt + sayısal tuş takımı rakamlarını kullanarak karakterleri kod sayfası numarasına göre yazma için Windows giriş yöntemi (Alt+0169 → ©, …
A system-level tool for browsing and inserting Unicode characters. macOS Character Viewer (Ctrl+Cmd+Space), Windows Character Map (charmap.exe), and Linux gucharmap …
Çoklu tuş birleştirme dizisi başlatan tuş (genellikle Sağ Alt veya özel eşlenmiş). Linux/Unix özelliği: Compose + a + e → …
Standart klavye kullanarak karmaşık karakterlerin (CJK, Korece, vb.) girilmesini sağlayan yazılım bileşeni, tuş vuruşu dizilerini fonetik veya yapısal eşleştirme ile …
Karakterlere görsel olarak göz atmak ve seçmek için kullanıcı arayüzü bileşeni (yerel veya web tabanlı). Mobil cihazlardaki emoji seçiciler en …
Unicode karakterlerine göz atmak ve eklemek için GUI yardımcı programı. Windows: charmap.exe. Mac: Character Viewer (Control+Command+Space). Linux: gucharmap.
Hex değeri yazarak doğrudan Unicode kod noktası girişi. Mac: Option + hex tuşlarını basılı tut + bırak. Windows: hex yaz …
Karakterleri Unicode kod noktasına göre girme yöntemi: hex input (Mac), Ctrl+Shift+U ile U+XXXX girişi (Linux) veya Alt+X (Windows uygulamaları).
Hemen çıktı üretmeyen ancak sonraki tuş vuruşunu değiştiren tuş. Aksan işaretleri için kullanılır: ` sonra e tuşuna basmak è üretir. …
Web ve HTML (16)
İnsan tarafından okunabilir ad kullanan HTML entity: © → ©, — → —. HTML5, 2.231 adlandırılmış referans tanımlar; büyük-küçük harf …
Bir yanıtın karakter kodlamasını bildiren HTTP başlık parametresi (Content-Type: text/html; charset=utf-8). Belge içi kodlama bildirimini geçersiz kılar.
::before ve ::after pseudo-elementleri aracılığıyla Unicode kaçış dizileri kullanarak üretilmiş içerik ekleyen CSS özelliği: content: "\2713" → ✓ ekler.
CSS properties (direction, writing-mode, unicode-bidi) controlling text layout direction. Works with Unicode Bidi Algorithm for mixed LTR/RTL content in web …
Bir karakterin renkli emoji glifi ile gösterilmesi, genellikle Variation Selector 16 (U+FE0F) kullanılarak. Bazı karakterler varsayılan olarak emoji sunumu, diğerleri …
HTML'de bir karakterin metinsel gösterimi. Üç form: adlandırılmış (&), ondalık (&), onaltılık (&). HTML sözdizimiyle çakışan karakterler için gereklidir.
ASCII olmayan Unicode karakterler içeren alan adları, dahili olarak Punycode (xn--...) olarak saklanır ancak kullanıcılara Unicode olarak gösterilir. Güvenlik sorunu: …
ECMAScript Internationalization API providing locale-aware string comparison (Collator), number formatting (NumberFormat), date formatting (DateTimeFormat), and segmentation (Segmenter).
U+2060. Satır kırılmasını önleyen sıfır genişlikli bir karakter. U+FEFF (BOM) yerine sıfır genişlikli bölünmez boşluk olarak kullanılan modern alternatif.
Bir karakterin renkli emoji yerine düz tek renkli metin glifi ile gösterilmesi, genellikle varsayılan emoji sunumunu geçersiz kılmak için Variation …
Uluslararası etiketleri xn-- önekli ASCII dizilerine dönüştüren, Unicode alan adlarının ASCII uyumlu kodlaması. münchen.de → xn--mnchen-3ya.de.
Unicode kod noktası numarasını kullanan HTML entity: ondalık (© → ©) veya onaltılık (© → ©). Adlandırılmış referansların aksine herhangi …
CSS supports Unicode via escape sequences (\2713 for ✓), the content property for generated text, unicode-range for font subsetting, and …
Belirli bir glif varyantını seçen karakterler (U+FE00–U+FE0F, U+E0100–U+E01EF). VS15 (U+FE0E) = metin sunumu, VS16 (U+FE0F) = emoji sunumu.
XML'in sayısal karakter referansı sürümü: ✓ veya ✓. XML'de yalnızca 5 adlandırılmış varlık vardır (& < > " '), HTML5'te …
URL'lerde ASCII olmayan ve ayrılmış karakterleri her baytı %XX ile değiştirerek kodlama. Önce UTF-8 kullanılır, sonra her bayt yüzde ile …
Programlama ve Geliştirme (13)
U+0000 (NUL). İlk Unicode/ASCII karakteri, C/C++'da dizi sonlandırıcı olarak kullanılır. Güvenlik riski: null byte injection savunmasız sistemlerde dizeleri kesebildiği için …
Bir Unicode dizisinin 'uzunluğu' birime bağlıdır: kod birimleri (JavaScript .length), kod noktaları (Python len()) veya grafem kümeleri. 👨👩👧👦 = 7 …
Görünür glifi olmayan herhangi bir karakter: boşluk, sıfır genişlikli karakterler, kontrol karakterleri ve biçimlendirme karakterleri. Sahtekarlık ve metin kaçakçılığı gibi …
Java strings use UTF-16 internally. char is 16-bit (only BMP). For supplementary characters, use codePointAt() and Character.toChars(). Java's \uXXXX escapes …
Bir programlama dilinde karakter dizisi. Dahili gösterim değişir: UTF-8 (Go, Rust, yeni Python sürümleri), UTF-16 (Java, JavaScript, C#) veya UTF-32 …
Kodlama karakterleri baytlara dönüştürür (str.encode('utf-8')); kod çözme baytları karakterlere dönüştürür (bytes.decode('utf-8')). Bunu doğru yapmak mojibake'yi önler.
Baytların yanlış kodlama ile çözülmesinden kaynaklanan bozuk metin. Japonca terim (文字化け). Örnek: UTF-8 olarak kaydedilen 'café' Latin-1 olarak okunursa → …
Python 3 uses Unicode strings by default (str = UTF-8 internally via PEP 393). Key features: \N{name} escapes, unicodedata module, …
Rust strings (str/String) are guaranteed valid UTF-8. char type represents a Unicode scalar value (4 bytes). Iteration via .chars() yields …
Unicode özelliklerini kullanan regex desenleri: \p{L} (herhangi bir harf), \p{Script=Greek} (Yunan alfabesi), \p{Emoji}. Destek dile ve regex motoruna göre değişir.
Kaynak kodda Unicode karakterlerini temsil etme sözdizimi. Dile göre değişir: \u2713 (Python/Java/JS), \u{2713} (JS/Ruby/Rust), \U00012345 (Python/C).
UTF-16'da ek bir karakteri kodlayan iki 16-bit kod birimi (yüksek surrogate U+D800–U+DBFF + düşük surrogate U+DC00–U+DFFF). 😀 = D83D DE00.
U+FFFD (�). Bir kod çözücü geçersiz bayt dizileriyle karşılaştığında gösterilir — 'kod çözmede bir şeyler ters gitti' evrensel sembolü.
Güvenlik (10)
Exploiting Unicode bidirectional control characters to disguise malicious code or filenames. The 'Trojan Source' attack (CVE-2021-42574) uses bidi overrides to …
Farklı alfabelerden özdeş veya çok benzer görünen karakterler, örneğin Latin 'a' ve Kiril 'а'. Kimlik avı, sahtekarlık ve sosyal mühendislik …
Alan adlarında görsel olarak benzer Unicode karakterler kullanarak meşru siteleri taklit etme. аpple.com (Kiril а) apple.com'a benzer. Tarayıcılar Punycode görüntüleme …
Unicode'un görsel olarak karıştırılabilecek karakter çiftleri için resmi terimi, confusables.txt (UCD) dosyasında tanımlanır. Homoglyph'lerden daha geniş — sadece özdeş değil, …
Farklı alfabelerden karakterleri karıştıran metni tanımlama (örn. Latin + Kiril). Homoglyph saldırılarına karşı birincil savunma; tarayıcılar bunu Punycode görüntülemeyi tetiklemek …
Exploiting Unicode normalization to bypass security filters. Input validated before normalization may change form after: 'fi' (U+FB01) normalizes to 'fi', …
Kullanıcıları aldatmak için Unicode özelliklerini kullanma: sahte alan adları için homoglyph'ler, sahte dosya uzantıları için bidi geçersiz kılmaları veya gizli …
U+200D. Bitişik karakterlerin birleştirilmesini ister. Emoji dizileri için kritik (👩+ZWJ+💻=👩💻). Hint alfabelerinde bitişik harf oluşturma ister. Metin sınırlarını da gizleyebilir.
U+200C. Bitişik karakterlerin birleşmesini önler. Farsça/Arapça'da doğru harf biçimleri için ve Devanagari'de bitişik harfleri önlemek için gereklidir.
Unicode çift yönlü geçersiz kılma karakterlerini (U+202A–U+202E, U+2066–U+2069) kullanarak kötü amaçlı dosya adlarını veya kodu gizleme. 'readmefdp.exe' 'readmeexe.pdf' olarak görünür.
Emoji (6)
ISO 3166-1 ülke kodlarına dayalı ülke bayrağı emoji'leri oluşturmak için çiftler halinde birleşen 26 karakter (U+1F1E6–U+1F1FF, 🇦–🇿). 🇺+🇸 = 🇺🇸.
Japon cep telefonlarından kaynaklanan resimli Unicode karakterleri. Şu anda birden fazla blokta (Emoticons, Misc Symbols & Pictographs, Transport, vb.) 3.790+ …
İnsan emojisinden hemen sonra yerleştirilerek insan emoji'lerinin ten rengini değiştiren Fitzpatrick ölçeği ten tonu değiştiricileri (U+1F3FB–U+1F3FF).
Multi-character emoji constructed by combining base emoji with modifiers, ZWJ characters, or variation selectors. Types include keycap sequences (#️⃣), flag …
Five Fitzpatrick scale modifiers (U+1F3FB–U+1F3FF, 🏻–🏿) that change human emoji skin color. Applied by appending the modifier after a base …
Zero Width Joiner (U+200D) ile birden fazla emoji'yi birleştirerek oluşturulan emoji. 👨👩👧👦 = Man + ZWJ + Woman + ZWJ …