Adlandırılmış bitişik kod noktası aralığı (örneğin, Basic Latin = U+0000–U+007F). Unicode 16.0, 336 blok tanımlar; her kod noktası tam olarak bir bloğa aittir.

What is Genel kategori?

Her kod noktasının 30 kategoriden birine (Lu, Ll, Nd, So, vb.) sınıflandırılması; 7 ana sınıfa gruplandırılır: Letter, Mark, Number, Punctuation, Symbol, Separator, Other.

What is Karıştırılabilir karakter?

Unicode'un görsel olarak karıştırılabilecek karakter çiftleri için resmi terimi, confusables.txt (UCD) dosyasında tanımlanır. Homoglyph'lerden daha geniş — sadece özdeş değil, benzer olanları da içerir.

Özellikler

Yazı sistemi

Bir karakterin ait olduğu yazı sistemi (örneğin, Latin, Cyrillic, Han). Unicode 16.0, 168 yazı sistemi tanımlar; Script özelliği güvenlik ve karışık yazı tespiti için anahtar öneme sahiptir.

2022-01-19 · Updated 2024-05-06

What Is a Unicode Script?

A Unicode Script is a collection of characters used to write one or more human languages. Unlike blocks (which are contiguous code-point ranges), a script groups characters by their cultural and historical writing system: Latin, Arabic, Han, Devanagari, Georgian, and so on. Unicode 15.1 defines 161 scripts.

Every assigned character carries a Script property value. Characters not associated with any specific writing system receive the value Common (punctuation, digits, emoji) or Inherited (combining marks that inherit the script of their base character, such as combining diacritical marks).

Script vs. Block

The distinction is important in practice:

The Latin script spans dozens of blocks: Basic Latin, Latin-1 Supplement, Latin Extended-A through Latin Extended-G, IPA Extensions, and more.
The CJK Unified Ideographs block contains characters that belong to multiple scripts (Han, and historically Bopomofo components).
The Letterlike Symbols block is Script=Common because those symbols are used across many writing systems.

# Python 3.14+ exposes Script via unicodedata
import unicodedata

# unicodedata.script() — available in Python 3.14
for char in ["A", "α", "ب", "あ", "中"]:
    try:
        script = unicodedata.script(char)
    except AttributeError:
        script = "(requires Python 3.14)"
    print(f"{char}  Script={script}")

# A  Script=Latin
# α  Script=Greek
# ب  Script=Arabic
# あ Script=Hiragana
# 中 Script=Han

# On older Python, use the 'regex' package:
import regex
print(bool(regex.match(r'\p{Script=Latin}', 'A')))     # True
print(bool(regex.match(r'\p{Script=Arabic}', 'ب')))    # True

Script Extensions

Some characters are legitimately used in more than one script. The Script_Extensions property lists all scripts that use a given character. For example, U+0951 DEVANAGARI STRESS SIGN UDATTA appears in Devanagari, Bengali, Gujarati, and a dozen other Indic scripts—its Script is Inherited, but its Script_Extensions lists all the scripts that employ it. Implementations that need precise script-segmentation should consult Script_Extensions rather than Script alone.

# regex package supports Script_Extensions:
import regex
# Match a character used in the Devanagari OR Bengali script
pattern = regex.compile(r'[\p{Script_Extensions=Devanagari}\p{Script_Extensions=Bengali}]')

Quick Facts

Property	Value
Unicode property name	`Script`
Short alias	`sc`
Number of scripts (Unicode 15.1)	161
Special values	`Common`, `Inherited`, `Unknown`
Python 3.14	`unicodedata.script(char)`
Older Python	`regex` package, `\p{Script=Latin}`
Companion property	`Script_Extensions` (`scx`)
Spec reference	Unicode Standard Annex #24 (UAX #24)

İlgili Terimler

Blok Genel kategori Karıştırılabilir karakter

Özellikler içinde daha fazlası

Ad takma adı

Karakter için alternatif isimler; Unicode isimleri kararlılık politikası gereği değiştirilemediğinden kullanılır. Düzeltmeler, …

Ayrıştırma

Bir karakterin bileşen parçalarına eşlenmesi. Kanonik ayrıştırma anlamı korur (é → e …

Birleştirme sınıfı

Birleştirme işaretlerinin kanonik ayrıştırma sırasındaki sıralamasını kontrol eden sayısal değer (0–254), hangi …

Blok

Adlandırılmış bitişik kod noktası aralığı (örneğin, Basic Latin = U+0000–U+007F). Unicode 16.0, …

Büyük/küçük harf dönüşümü

Karakterleri büyük harf, küçük harf ve başlık harfi arasında dönüştürme kuralları. Yerel …

East Asian Width

Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or …

Genel kategori

Her kod noktasının 30 kategoriden birine (Lu, Ll, Nd, So, vb.) sınıflandırılması; …

Grafem kümesi

Kullanıcının algıladığı 'karakter' — tek bir birim gibi hissettiren öğe. Birden fazla …

Joining Type

Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. …

Kanonik denklik

Anlamsal olarak özdeş olan ve eşit kabul edilmesi gereken iki karakter dizisi. …

← Sözlüğe Geri Dön