Письменность
Письменность, к которой принадлежит символ (например, Latin, Cyrillic, Han). Unicode 16.0 определяет 168 письменностей; свойство Script важно для безопасности и обнаружения смешанных письменностей.
What Is a Unicode Script?
A Unicode Script is a collection of characters used to write one or more human languages. Unlike blocks (which are contiguous code-point ranges), a script groups characters by their cultural and historical writing system: Latin, Arabic, Han, Devanagari, Georgian, and so on. Unicode 15.1 defines 161 scripts.
Every assigned character carries a Script property value. Characters not associated with any specific writing system receive the value Common (punctuation, digits, emoji) or Inherited (combining marks that inherit the script of their base character, such as combining diacritical marks).
Script vs. Block
The distinction is important in practice:
- The Latin script spans dozens of blocks: Basic Latin, Latin-1 Supplement, Latin Extended-A through Latin Extended-G, IPA Extensions, and more.
- The CJK Unified Ideographs block contains characters that belong to multiple scripts (Han, and historically Bopomofo components).
- The Letterlike Symbols block is
Script=Commonbecause those symbols are used across many writing systems.
# Python 3.14+ exposes Script via unicodedata
import unicodedata
# unicodedata.script() — available in Python 3.14
for char in ["A", "α", "ب", "あ", "中"]:
try:
script = unicodedata.script(char)
except AttributeError:
script = "(requires Python 3.14)"
print(f"{char} Script={script}")
# A Script=Latin
# α Script=Greek
# ب Script=Arabic
# あ Script=Hiragana
# 中 Script=Han
# On older Python, use the 'regex' package:
import regex
print(bool(regex.match(r'\p{Script=Latin}', 'A'))) # True
print(bool(regex.match(r'\p{Script=Arabic}', 'ب'))) # True
Script Extensions
Some characters are legitimately used in more than one script. The Script_Extensions property lists all scripts that use a given character. For example, U+0951 DEVANAGARI STRESS SIGN UDATTA appears in Devanagari, Bengali, Gujarati, and a dozen other Indic scripts—its Script is Inherited, but its Script_Extensions lists all the scripts that employ it. Implementations that need precise script-segmentation should consult Script_Extensions rather than Script alone.
# regex package supports Script_Extensions:
import regex
# Match a character used in the Devanagari OR Bengali script
pattern = regex.compile(r'[\p{Script_Extensions=Devanagari}\p{Script_Extensions=Bengali}]')
Quick Facts
| Property | Value |
|---|---|
| Unicode property name | Script |
| Short alias | sc |
| Number of scripts (Unicode 15.1) | 161 |
| Special values | Common, Inherited, Unknown |
| Python 3.14 | unicodedata.script(char) |
| Older Python | regex package, \p{Script=Latin} |
| Companion property | Script_Extensions (scx) |
| Spec reference | Unicode Standard Annex #24 (UAX #24) |
Связанные термины
Ещё в Свойства
Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or …
Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. …
Unicode property listing all scripts that use a character, broader than the …
Именованный непрерывный диапазон кодовых позиций (например, Basic Latin = U+0000–U+007F). Unicode 16.0 …
Свойство, определяющее поведение символа в двунаправленном тексте (LTR, RTL, слабое, нейтральное). Используется …
Отображение символа на его компоненты. Каноническая декомпозиция сохраняет значение (é → e …
Символы, не имеющие видимого эффекта и игнорируемые процессами, которые их не поддерживают, …
Две последовательности символов, семантически идентичные и трактуемые как равные. Пример: é (U+00E9) …
Числовое значение (0–254), управляющее порядком комбинирующих знаков при канонической декомпозиции и определяющее, …
Воспринимаемый пользователем «символ» — то, что ощущается как единое целое. Может состоять …