Unicode Sözlüğü

150 temel Unicode terimi açıklandı — karakter kodlama temellerinden güvenlik kavramlarına kadar.

Kodlama 17 Unicode Standardı 25 Özellikler 19 Algoritmalar 15 Tipografi 19 Giriş Yöntemleri 9 Web ve HTML 16 Programlama ve Geliştirme 13 Güvenlik 10 Emoji 6 Çeşitli 1

Kodlama (17)

ASCII

American Standard Code for Information Interchange. 128 karakteri (0–127) kapsayan 7-bit kodlama: kontrol karakterleri, rakamlar, Latin harfleri ve temel semboller.

ASCII Art

Visual art created from text characters, originally limited to the 95 printable ASCII characters. Unicode expands the palette with box-drawing …

Base64

Binary-to-text encoding that represents binary data using 64 ASCII characters (A–Z, a–z, 0–9, +, /). Used for embedding binary data …

Bayt sırası işareti

Byte sırasını ve kodlamayı belirtmek için bir metin akışının başına yerleştirilen U+FEFF. UTF-16/32 için gerekli, UTF-8 için isteğe bağlı ve …

Big5

Öncelikle Tayvan ve Hong Kong'da kullanılan, yaklaşık 13.000 CJK karakteri kodlayan Geleneksel Çince karakter kodlaması.

EBCDIC

Extended Binary Coded Decimal Interchange Code. Bitişik olmayan harf aralıklarına sahip IBM anabilgisayar kodlaması, hala bankacılık ve kurumsal anabilgisayarlarda kullanılır.

EUC-KR

KS X 1001'e dayanan Korece karakter kodlaması, Hangul heceleri ve Hanja'yı çift-byte dizilerine eşler.

GB2312 / GB18030

Basitleştirilmiş Çince karakter kodlama ailesi: GB2312 (6.763 karakter) GBK'ya, ardından zorunlu Unicode uyumlu Çin ulusal standardı GB18030'a evrilmiştir.

IANA karakter kümesi

IANA tarafından sürdürülen, HTTP Content-Type başlıklarında ve MIME'de kullanılan resmi karakter kodlama adları kaydı (örn. charset=utf-8).

ISO 8859

Farklı dil grupları için 8-bit tek-byte kodlama ailesi. ISO 8859-1 (Latin-1), Unicode'un ilk 256 kod noktasının temelini oluşturmuştur.

Karakter kodlaması

Karakterleri dijital depolama ve iletim için byte dizilerine eşleyen sistem. Her metin dosyasının bir kodlaması vardır — soru doğru şekilde …

Shift JIS

Tek-byte ASCII/JIS Roman ile çift-byte JIS X 0208 kanji'yi birleştiren Japonca karakter kodlaması. Hala eski Japon sistemlerinde kullanılır.

UCS-2

Yalnızca BMP'yi (U+0000–U+FFFF) kapsayan eski sabit uzunluklu 2-byte kodlama. UTF-16'nın öncülü olup ek karakterleri temsil edemez.

UTF-16

16-bit'lik 1 veya 2 kod birimi kullanarak 2 veya 4 byte ile çalışan değişken uzunluklu Unicode kodlaması. Java, JavaScript ve …

UTF-32

Karakter başına tam olarak 4 byte kullanan sabit uzunluklu Unicode kodlaması. Basit ancak alan verimsiz; Python 3 (CPython) tarafından dahili …

UTF-8

Karakter başına 1–4 byte kullanan değişken uzunluklu Unicode kodlaması. Web'in baskın kodlaması (%98+ web sitesi) ve tam ASCII geriye uyumluluğu …

Windows-1252

Microsoft'un ISO 8859-1'in üst kümesi, 0x80–0x9F aralığında akıllı tırnaklar, em tire ve euro işareti ekler. En yaygın eski "Latin" kodlaması.

Unicode Standardı (25)

Atanmamış kod noktası

Henüz hiçbir Unicode sürümünde bir karaktere atanmamış kod noktası, Cn (Atanmamış) olarak kategorize edilir. Gelecek sürümlerde atanabilir.

Atanmış karakter

Bir Unicode sürümünde karakter ataması yapılmış kod noktası. Unicode 16.0 itibariyle, 1.114.112 olası kod noktasından 154.998'i atanmıştır.

Ayrılmış kod noktası

Gelecekteki standardizasyon için ayrılmış kod noktası; kalıcı olarak ayrılan noncharacter'lardan ve kullanıcı tarafından atanabilen özel kullanım alanlarından farklıdır.

Basic Multilingual Plane (BMP)

Düzlem 0 (U+0000–U+FFFF), Latin, Yunan, Kiril, CJK, Arap ve çoğu sembol dahil en yaygın kullanılan karakterleri içerir. Buradaki karakterler tek …

CJK

Çince, Japonca ve Korece — Unicode'da birleştirilmiş Han ideograf bloğu ve ilgili alfabeler için toplu terim. CJK Unified Ideographs 20.992+ …

Düzlem

65.536 kod noktasından oluşan bitişik blok. Unicode'da 17 düzlem vardır (0–16): Düzlem 0 BMP, Düzlem 1 SMP (emoji, tarihi yazılar), …

Ek düzlem

Düzlem 1–16 (U+10000–U+10FFFF), emoji, tarihi yazılar, CJK uzantıları ve müzik notasyonu içerir. UTF-16'da vekil çiftler gerektirir.

Han Unification

The process of mapping Chinese, Japanese, and Korean ideographs that share a common historical origin to a single Unicode code …

Hangul Jamo

The individual consonant and vowel components (jamo) of the Korean Hangul writing system. Unicode encodes both precomposed Hangul syllables (U+AC00–U+D7A3) …

ISO 10646 / Universal Character Set

Unicode ile senkronize edilmiş, aynı karakter repertuvarını ve kod noktalarını tanımlayan ancak Unicode'un ek algoritmaları ve özellikleri olmayan uluslararası standart …

Karakter olmayan

Dahili kullanım için kalıcı olarak ayrılmış kod noktaları (toplam 66): U+FDD0–U+FDEF ve her düzlem için U+nFFFE/U+nFFFF. Metinde geçerlidir ancak harici …

Kod alanı

Unicode kod noktalarının tam aralığı: U+0000 ile U+10FFFF arası (toplam 1.114.112), her biri 65.536 kod noktasından oluşan 17 düzleme bölünmüştür.

Kod birimi

Kodlamanın minimal birimi: UTF-8'de 8-bit byte, UTF-16'da 16-bit word, UTF-32'de 32-bit word. Tek bir karakter birden fazla kod birimi gerektirebilir.

Kod noktası

Unicode kod alanındaki sayısal değer (U+0000 ile U+10FFFF arası), U+XXXX şeklinde yazılır. Tüm kod noktaları karakterlere atanmış değildir.

Soyut karakter

Metinsel verileri düzenlemek, kontrol etmek veya temsil etmek için kullanılan bilgi birimi — kod noktası almadan önceki kavramsal varlık.

Unicode

Her yazı sistemindeki her karaktere benzersiz bir sayı (kod noktası) atayan evrensel karakter kodlama standardı. Sürüm 16.0, 154.998 atanmış karakter …

Unicode Character Database (UCD)

UnicodeData.txt, Blocks.txt, Scripts.txt ve daha birçok dosya dahil tüm Unicode karakter özelliklerini tanımlayan makine tarafından okunabilir veri dosyaları koleksiyonu.

Unicode kararlılık politikası

Bir karakter atandığında, kod noktasının ve adının asla değişmeyeceği garantisi. Özellikler geliştirilebilir ancak atamalar kalıcıdır.

Unicode Konsorsiyumu

Unicode Standardını geliştiren ve sürdüren kar amacı gütmeyen organizasyon. Üyeleri arasında Apple, Google, Microsoft, Meta ve daha birçok kuruluş bulunur.

Unicode skaler değeri

Vekil kod noktaları (U+D800–U+DFFF) hariç herhangi bir kod noktası. Gerçek karakterleri temsil edebilen geçerli değerler kümesi, toplam 1.112.064 değer.

Unicode Standard Annex (UAX)

Normative or informative documents that are integral parts of the Unicode Standard. UAX#9 (Bidi Algorithm), UAX#11 (East Asian Width), UAX#15 …

Unicode sürümü

Her biri yeni karakterler, yazılar ve özellikler ekleyen Unicode Standardının ana sürümleri. Güncel sürüm Unicode 16.0'dır (Eylül 2025).

Unicode Technical Report (UTR)

Informational documents published by the Unicode Consortium covering specific topics like security mechanisms (UTR#39), text segmentation (UTR#29), and line breaking …

Vekil

UTF-16 vekil çiftleri için özel olarak ayrılmış U+D800–U+DFFF kod noktaları. Geçerli Unicode skaler değerleri değildir ve asla bağımsız karakter olarak …

Özel kullanım alanı

Kuruluşların kendi karakterlerini atayabileceği ayrılmış aralıklar: BMP PUA (U+E000–U+F8FF) ve Düzlem 15 ve 16'daki Ek PUA'lar.

Özellikler (19)

Ad takma adı

Karakter için alternatif isimler; Unicode isimleri kararlılık politikası gereği değiştirilemediğinden kullanılır. Düzeltmeler, kısaltmalar ve hayali karakterler için kullanılır.

Ayrıştırma

Bir karakterin bileşen parçalarına eşlenmesi. Kanonik ayrıştırma anlamı korur (é → e + ́); uyumluluk ayrıştırması anlamı değiştirebilir (ﬁ → …

Birleştirme sınıfı

Birleştirme işaretlerinin kanonik ayrıştırma sırasındaki sıralamasını kontrol eden sayısal değer (0–254), hangi birleştirme işaretlerinin yeniden sıralanabileceğini belirler.

Blok

Adlandırılmış bitişik kod noktası aralığı (örneğin, Basic Latin = U+0000–U+007F). Unicode 16.0, 336 blok tanımlar; her kod noktası tam olarak …

Büyük/küçük harf dönüşümü

Karakterleri büyük harf, küçük harf ve başlık harfi arasında dönüştürme kuralları. Yerel ayara bağlı olabilir (Türkçe I problemi) ve bire-çok …

East Asian Width

Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or Neutral. Wide characters (CJK ideographs, katakana) occupy two …

Genel kategori

Her kod noktasının 30 kategoriden birine (Lu, Ll, Nd, So, vb.) sınıflandırılması; 7 ana sınıfa gruplandırılır: Letter, Mark, Number, Punctuation, …

Grafem kümesi

Kullanıcının algıladığı 'karakter' — tek bir birim gibi hissettiren öğe. Birden fazla kod noktasından oluşabilir (taban + birleştirme işaretleri veya …

Joining Type

Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. Types include Right_Joining, Left_Joining, Dual_Joining, and Non_Joining.

Kanonik denklik

Anlamsal olarak özdeş olan ve eşit kabul edilmesi gereken iki karakter dizisi. Örnek: é (U+00E9) ≡ e + ◌́ (U+0065 …

Noktalama işaretleri

Yazılı dili düzenlemek ve netleştirmek için kullanılan karakterler: noktalar, virgüller, tireler, tırnak işaretleri ve daha fazlası. Unicode Genel Kategori P …

Sayısal değer

Bir karakterin varsa sayısal yorumu: basamak değeri (0–9), ondalık değer veya genel sayısal değer (örneğin, ½ = 0.5, Ⅳ = …

Script Extensions

Unicode property listing all scripts that use a character, broader than the single-valued Script property. Common characters like digits have …

Uyumluluk denkliği

Aynı soyut içeriğe sahip ancak görünümde farklılık gösterebilen iki karakter dizisi. Kanonik eşdeğerlikten daha geniştir. Örnek: ﬁ ≈ fi, ² …

Varsayılan olarak yoksayılabilir

Görünür bir etkisi olmaması gereken ve bunları desteklemeyen işlemler tarafından yok sayılabilen karakterler; varyasyon seçicileri, sıfır genişlikli karakterler ve dil …

Versiyon özelliği

Bir karakterin ilk kez atandığı Unicode sürümü. Sistemler ve yazılım sürümleri arasında karakter desteğini belirlemek için yararlıdır.

Yansıma özelliği

RTL bağlamda glifinin yatay olarak aynalı hale getirilmesi gereken karakterler. Örnekler: ( → ), [ → ], { → }, …

Yazı sistemi

Bir karakterin ait olduğu yazı sistemi (örneğin, Latin, Cyrillic, Han). Unicode 16.0, 168 yazı sistemi tanımlar; Script özelliği güvenlik ve …

Çift yönlü kategori

Çift yönlü metinde bir karakterin nasıl davrandığını belirleyen özellik (LTR, RTL, zayıf, nötr). Unicode Bidirectional Algorithm tarafından görüntüleme sırasını belirlemek …

Algoritmalar (15)

Bileşim dışlama

Başlatıcı olmayan ayrıştırmayı önlemek ve algoritmik kararlılığı sağlamak için kanonik birleştirmeden (NFC) hariç tutulan karakterler. CompositionExclusions.txt dosyasında listelenir.

Case Folding

Mapping characters to a common case form for case-insensitive comparison. More comprehensive than lowercasing: German ß → ss, Turkish İ …

Cümle sınırı

Unicode kurallarına göre cümleler arasındaki konum. Noktalara göre bölmekten daha karmaşıktır — kısaltmaları (Mr.), üç nokta (...) ve ondalık noktaları …

Grapheme Cluster Boundary

Rules (UAX#29) for determining where one user-perceived character ends and another begins. Critical for cursor movement, text selection, and correctly …

Harmanlama algoritması

Unicode dizilerini çok seviyeli karşılaştırma kullanarak karşılaştırma ve sıralama için standart algoritma: temel karakter → aksanlar → büyük/küçük harf → …

Kelime sınırı

Unicode kelime kesme kurallarına göre belirlenen kelimeler arasındaki konum. Boşluklara göre basit bölme değildir — CJK'yı (boşluk yok), kısaltmaları ve …

Metin bölümleme

Metinde sınır bulma algoritmaları: grafem kümesi, kelime ve cümle sınırları. İmleç hareketi, metin seçimi ve metin işleme için kritik öneme …

NFC (Canonical Composition)

Normalization Form C: kanonik olarak ayrıştırıp sonra yeniden birleştirerek en kısa formu üretir. Veri depolama ve değişimi için önerilir; web …

NFD (Canonical Decomposition)

Normalization Form D: yeniden birleştirmeden tamamen ayrıştırır. macOS HFS+ dosya sistemi tarafından kullanılır. é (U+00E9) → e + ◌́ (U+0065 …

NFKC (Compatibility Composition)

Normalization Form KC: uyumluluk ayrıştırması ardından kanonik birleştirme. Görsel olarak benzer karakterleri birleştirir (ﬁ→fi, ²→2, Ⅳ→IV). Tanımlayıcı karşılaştırması için kullanılır.

NFKD (Compatibility Decomposition)

Normalization Form KD: yeniden birleştirme olmadan uyumluluk ayrıştırması. En agresif normalleştirme, en fazla biçimlendirme bilgisini kaybeder.

Normalleştirme

Unicode metnini standart kanonik forma dönüştürme işlemi. Dört form: NFC (birleştirilmiş), NFD (ayrıştırılmış), NFKC (uyumluluk birleştirilmiş), NFKD (uyumluluk ayrıştırılmış).

Satır bölme algoritması

Metnin bir sonraki satıra sarılabileceği yerleri belirleyen kurallar; karakter özelliklerini, CJK kelime sınırlarını ve kesme fırsatlarını dikkate alır.

String Comparison

Comparing Unicode strings requires normalization (NFC/NFD) and optionally collation (locale-aware sorting). Binary comparison of code points alone gives incorrect results …

Çift yönlü algoritma

Karışık yönlü metinde karakterlerin görüntüleme sırasını belirleyen algoritma (örneğin, İngilizce + Arapça), karakter bidi kategorilerini ve açık yönlü geçersiz kılmaları …

Tipografi (19)

Aksan işareti

Telaffuzu veya anlamı değiştirmek için harfe eklenen işaret. Önceden birleştirilmiş (é U+00E9) veya birleştirici (e + ◌́ U+0065+U+0301) olabilir. Aksanlar, …

Bağ harf

İki veya daha fazla karakterin tek bir glyph olarak birleştirilmesi. Tipografik olabilir (fi → ﬁ OpenType ile) veya Unicode karakter …

Birleştirici karakter

Önceki temel karaktere eklenerek onu değiştiren karakter. Genel Kategori: Mn (boşluksuz), Mc (boşluklu birleştirici), Me (çevreleyen). Örnek: ◌́ (U+0301 Combining …

Boşluk karakteri

Yatay veya dikey boşluğu temsil eden ancak görünür glyph'i olmayan karakterler. Unicode, farklı genişliklere ve satır kırma davranışlarına sahip 17+ …

Bölünmez boşluk

U+00A0. O konumda satır kırılmasını engelleyen boşluk. HTML:  . Sayılar ve birimler arasında (100 km), özel isimlerde (Bay Ahmet) ve …

CSS unicode-range

CSS @font-face descriptor specifying which Unicode code points a font should cover. Enables downloading only the font subset needed for …

Em / En (Tipografik birimler)

Em: yazı tipi boyutuna eşit bir genişlik. En: bir em'in yarısı. Em tire genişliği, em boşluk, en boşluk ve CSS …

Font Fallback

The mechanism by which a rendering engine substitutes glyphs from a secondary font when the primary font lacks coverage for …

Glif

Bir karakterin yazı tipi tarafından görsel olarak temsil edilme şekli. Bir karakter birden fazla glyph'e sahip olabilir (bitişik harfler, bağlamsal …

Karakter aralığı

Görsel uyum için belirli karakter çiftleri arasındaki boşluğu ayarlama (örneğin, AV, To, LT). Bir yazı tipi özelliği, Unicode kavramı değil, …

Küçük büyük harfler

Küçük harf yüksekliğinde büyük harf biçimleri. CSS: font-variant: small-caps. Unicode ayrıca Latin Extended'de gerçek küçük büyük harfler içerir (ᴀ–ᴢ).

OpenType

Modern font format developed by Microsoft and Adobe supporting up to 65,535 glyphs, advanced typographic features (ligatures, alternates, kerning), and …

RTL (Right-to-Left)

Karakterlerin sağdan sola aktığı metin yönü. Arapça, İbranice, Thaana ve diğer yazı sistemlerinde kullanılır; doğru gösterim için Bidirectional Algorithm gerektirir.

Sıfır genişlikli karakter

Sıfır genişliğe sahip karakterler — gösterimde görünmez ancak metin davranışını etkiler. ZWSP (kelime kırma), ZWJ (birleştir), ZWNJ (birleştirmeyi engelle) ve …

Tire

Cümlenin bölümlerini ayırmak veya aralıkları belirtmek için kullanılan noktalama işaretleri. Unicode birden fazla tire tanımlar: kısa tire (‐), en tire …

Tırnak işareti

Doğrudan konuşma veya alıntıları çevreleyen eşleştirilmiş noktalama işaretleri. Unicode düz (""), kıvrık (""), guillemets (« »), CJK köşeli parantezler (「」) …

Web Fonts

Fonts downloaded by the browser to render text, declared via CSS @font-face. WOFF2 is the standard format. Unicode subsetting and …

Yazı tipi

Belirli bir boyut, kalınlık ve stilde bir yazı tipinin uygulanması. Dijital tipografide, glyph tanımları ve ölçümleri içeren bir yazı tipi …

Üç nokta

U+2026 HORIZONTAL ELLIPSIS (…). Üç noktayı değiştiren tek karakter, tipografik olarak doğru ve 3 yerine 1 karakter olarak sayılır.

Giriş Yöntemleri (9)

Alt kodu

Alt + sayısal tuş takımı rakamlarını kullanarak karakterleri kod sayfası numarasına göre yazma için Windows giriş yöntemi (Alt+0169 → ©, …

Character Palette

A system-level tool for browsing and inserting Unicode characters. macOS Character Viewer (Ctrl+Cmd+Space), Windows Character Map (charmap.exe), and Linux gucharmap …

Compose tuşu

Çoklu tuş birleştirme dizisi başlatan tuş (genellikle Sağ Alt veya özel eşlenmiş). Linux/Unix özelliği: Compose + a + e → …

Input Method Editor (IME)

Standart klavye kullanarak karmaşık karakterlerin (CJK, Korece, vb.) girilmesini sağlayan yazılım bileşeni, tuş vuruşu dizilerini fonetik veya yapısal eşleştirme ile …

Karakter seçici

Karakterlere görsel olarak göz atmak ve seçmek için kullanıcı arayüzü bileşeni (yerel veya web tabanlı). Mobil cihazlardaki emoji seçiciler en …

Karakter tablosu

Unicode karakterlerine göz atmak ve eklemek için GUI yardımcı programı. Windows: charmap.exe. Mac: Character Viewer (Control+Command+Space). Linux: gucharmap.

Onaltılı giriş

Hex değeri yazarak doğrudan Unicode kod noktası girişi. Mac: Option + hex tuşlarını basılı tut + bırak. Windows: hex yaz …

Unicode giriş yöntemi

Karakterleri Unicode kod noktasına göre girme yöntemi: hex input (Mac), Ctrl+Shift+U ile U+XXXX girişi (Linux) veya Alt+X (Windows uygulamaları).

Ölü tuş

Hemen çıktı üretmeyen ancak sonraki tuş vuruşunu değiştiren tuş. Aksan işaretleri için kullanılır: ` sonra e tuşuna basmak è üretir. …

Web ve HTML (16)

Adlandırılmış karakter referansı

İnsan tarafından okunabilir ad kullanan HTML entity: © → ©, — → —. HTML5, 2.231 adlandırılmış referans tanımlar; büyük-küçük harf …

Content-Type karakter kümesi

Bir yanıtın karakter kodlamasını bildiren HTTP başlık parametresi (Content-Type: text/html; charset=utf-8). Belge içi kodlama bildirimini geçersiz kılar.

CSS content özelliği

::before ve ::after pseudo-elementleri aracılığıyla Unicode kaçış dizileri kullanarak üretilmiş içerik ekleyen CSS özelliği: content: "\2713" → ✓ ekler.

CSS Text Direction

CSS properties (direction, writing-mode, unicode-bidi) controlling text layout direction. Works with Unicode Bidi Algorithm for mixed LTR/RTL content in web …

Emoji gösterimi

Bir karakterin renkli emoji glifi ile gösterilmesi, genellikle Variation Selector 16 (U+FE0F) kullanılarak. Bazı karakterler varsayılan olarak emoji sunumu, diğerleri …

HTML varlığı

HTML'de bir karakterin metinsel gösterimi. Üç form: adlandırılmış (&), ondalık (&), onaltılık (&). HTML sözdizimiyle çakışan karakterler için gereklidir.

Internationalized Domain Name (IDN)

ASCII olmayan Unicode karakterler içeren alan adları, dahili olarak Punycode (xn--...) olarak saklanır ancak kullanıcılara Unicode olarak gösterilir. Güvenlik sorunu: …

JavaScript Intl API

ECMAScript Internationalization API providing locale-aware string comparison (Collator), number formatting (NumberFormat), date formatting (DateTimeFormat), and segmentation (Segmenter).

Kelime birleştirici

U+2060. Satır kırılmasını önleyen sıfır genişlikli bir karakter. U+FEFF (BOM) yerine sıfır genişlikli bölünmez boşluk olarak kullanılan modern alternatif.

Metin gösterimi

Bir karakterin renkli emoji yerine düz tek renkli metin glifi ile gösterilmesi, genellikle varsayılan emoji sunumunu geçersiz kılmak için Variation …

Punycode

Uluslararası etiketleri xn-- önekli ASCII dizilerine dönüştüren, Unicode alan adlarının ASCII uyumlu kodlaması. münchen.de → xn--mnchen-3ya.de.

Sayısal karakter referansı

Unicode kod noktası numarasını kullanan HTML entity: ondalık (© → ©) veya onaltılık (© → ©). Adlandırılmış referansların aksine herhangi …

Unicode in CSS

CSS supports Unicode via escape sequences (\2713 for ✓), the content property for generated text, unicode-range for font subsetting, and …

Varyasyon seçici

Belirli bir glif varyantını seçen karakterler (U+FE00–U+FE0F, U+E0100–U+E01EF). VS15 (U+FE0E) = metin sunumu, VS16 (U+FE0F) = emoji sunumu.

XML karakter referansı

XML'in sayısal karakter referansı sürümü: ✓ veya ✓. XML'de yalnızca 5 adlandırılmış varlık vardır (& < > " '), HTML5'te …

Yüzde kodlama (URL kodlama)

URL'lerde ASCII olmayan ve ayrılmış karakterleri her baytı %XX ile değiştirerek kodlama. Önce UTF-8 kullanılır, sonra her bayt yüzde ile …

Programlama ve Geliştirme (13)

Boş karakter

U+0000 (NUL). İlk Unicode/ASCII karakteri, C/C++'da dizi sonlandırıcı olarak kullanılır. Güvenlik riski: null byte injection savunmasız sistemlerde dizeleri kesebildiği için …

Dize uzunluğu belirsizliği

Bir Unicode dizisinin 'uzunluğu' birime bağlıdır: kod birimleri (JavaScript .length), kod noktaları (Python len()) veya grafem kümeleri. 👨‍👩‍👧‍👦 = 7 …

Görünmez karakter

Görünür glifi olmayan herhangi bir karakter: boşluk, sıfır genişlikli karakterler, kontrol karakterleri ve biçimlendirme karakterleri. Sahtekarlık ve metin kaçakçılığı gibi …

Java Unicode

Java strings use UTF-16 internally. char is 16-bit (only BMP). For supplementary characters, use codePointAt() and Character.toChars(). Java's \uXXXX escapes …

Karakter dizisi

Bir programlama dilinde karakter dizisi. Dahili gösterim değişir: UTF-8 (Go, Rust, yeni Python sürümleri), UTF-16 (Java, JavaScript, C#) veya UTF-32 …

Kodlama / Kod çözme

Kodlama karakterleri baytlara dönüştürür (str.encode('utf-8')); kod çözme baytları karakterlere dönüştürür (bytes.decode('utf-8')). Bunu doğru yapmak mojibake'yi önler.

Mojibake

Baytların yanlış kodlama ile çözülmesinden kaynaklanan bozuk metin. Japonca terim (文字化け). Örnek: UTF-8 olarak kaydedilen 'café' Latin-1 olarak okunursa → …

Python Unicode

Python 3 uses Unicode strings by default (str = UTF-8 internally via PEP 393). Key features: \N{name} escapes, unicodedata module, …

Rust Unicode

Rust strings (str/String) are guaranteed valid UTF-8. char type represents a Unicode scalar value (4 bytes). Iteration via .chars() yields …

Unicode düzenli ifade

Unicode özelliklerini kullanan regex desenleri: \p{L} (herhangi bir harf), \p{Script=Greek} (Yunan alfabesi), \p{Emoji}. Destek dile ve regex motoruna göre değişir.

Unicode kaçış dizisi

Kaynak kodda Unicode karakterlerini temsil etme sözdizimi. Dile göre değişir: \u2713 (Python/Java/JS), \u{2713} (JS/Ruby/Rust), \U00012345 (Python/C).

Vekil çifti

UTF-16'da ek bir karakteri kodlayan iki 16-bit kod birimi (yüksek surrogate U+D800–U+DBFF + düşük surrogate U+DC00–U+DFFF). 😀 = D83D DE00.

Yedek karakter

U+FFFD (�). Bir kod çözücü geçersiz bayt dizileriyle karşılaştığında gösterilir — 'kod çözmede bir şeyler ters gitti' evrensel sembolü.

Güvenlik (10)

Bidi Text Attack

Exploiting Unicode bidirectional control characters to disguise malicious code or filenames. The 'Trojan Source' attack (CVE-2021-42574) uses bidi overrides to …

Homoglif

Farklı alfabelerden özdeş veya çok benzer görünen karakterler, örneğin Latin 'a' ve Kiril 'а'. Kimlik avı, sahtekarlık ve sosyal mühendislik …

IDN homograf saldırısı

Alan adlarında görsel olarak benzer Unicode karakterler kullanarak meşru siteleri taklit etme. аpple.com (Kiril а) apple.com'a benzer. Tarayıcılar Punycode görüntüleme …

Karıştırılabilir karakter

Unicode'un görsel olarak karıştırılabilecek karakter çiftleri için resmi terimi, confusables.txt (UCD) dosyasında tanımlanır. Homoglyph'lerden daha geniş — sadece özdeş değil, …

Karışık betik tespiti

Farklı alfabelerden karakterleri karıştıran metni tanımlama (örn. Latin + Kiril). Homoglyph saldırılarına karşı birincil savunma; tarayıcılar bunu Punycode görüntülemeyi tetiklemek …

Normalization Attack

Exploiting Unicode normalization to bypass security filters. Input validated before normalization may change form after: 'ﬁ' (U+FB01) normalizes to 'fi', …

Unicode sahtekarlığı

Kullanıcıları aldatmak için Unicode özelliklerini kullanma: sahte alan adları için homoglyph'ler, sahte dosya uzantıları için bidi geçersiz kılmaları veya gizli …

Zero Width Joiner (ZWJ)

U+200D. Bitişik karakterlerin birleştirilmesini ister. Emoji dizileri için kritik (👩+ZWJ+💻=👩‍💻). Hint alfabelerinde bitişik harf oluşturma ister. Metin sınırlarını da gizleyebilir.

Zero Width Non-Joiner (ZWNJ)

U+200C. Bitişik karakterlerin birleşmesini önler. Farsça/Arapça'da doğru harf biçimleri için ve Devanagari'de bitişik harfleri önlemek için gereklidir.

Çift yönlü geçersiz kılma saldırısı

Unicode çift yönlü geçersiz kılma karakterlerini (U+202A–U+202E, U+2066–U+2069) kullanarak kötü amaçlı dosya adlarını veya kodu gizleme. 'readme‮fdp.exe' 'readmeexe.pdf' olarak görünür.

Emoji (6)

Bölgesel gösterge

ISO 3166-1 ülke kodlarına dayalı ülke bayrağı emoji'leri oluşturmak için çiftler halinde birleşen 26 karakter (U+1F1E6–U+1F1FF, 🇦–🇿). 🇺+🇸 = 🇺🇸.

Emoji

Japon cep telefonlarından kaynaklanan resimli Unicode karakterleri. Şu anda birden fazla blokta (Emoticons, Misc Symbols & Pictographs, Transport, vb.) 3.790+ …

Emoji düzenleyicisi (ten rengi)

İnsan emojisinden hemen sonra yerleştirilerek insan emoji'lerinin ten rengini değiştiren Fitzpatrick ölçeği ten tonu değiştiricileri (U+1F3FB–U+1F3FF).

Emoji Sequences

Multi-character emoji constructed by combining base emoji with modifiers, ZWJ characters, or variation selectors. Types include keycap sequences (#️⃣), flag …

Emoji Skin Tone

Five Fitzpatrick scale modifiers (U+1F3FB–U+1F3FF, 🏻–🏿) that change human emoji skin color. Applied by appending the modifier after a base …

Emoji ZWJ dizisi

Zero Width Joiner (U+200D) ile birden fazla emoji'yi birleştirerek oluşturulan emoji. 👨‍👩‍👧‍👦 = Man + ZWJ + Woman + ZWJ …

Çeşitli (1)

Kontrol karakteri

Metin işlemeyi kontrol eden yazdırılamayan karakterler. C0 (U+0000–U+001F): NUL, TAB, LF, CR, ESC. C1 (U+0080–U+009F): modern Unicode'da nadiren kullanılır. Genel …