Từ điển thuật ngữ Unicode

150 thuật ngữ Unicode thiết yếu được giải thích — từ cơ bản mã hóa ký tự đến các khái niệm bảo mật.

Mã hóa (17)

ASCII

Tiêu chuẩn mã hóa thông tin Mỹ (American Standard Code for Information Interchange). Mã hóa 7-bit bao gồm 128 ký …

ASCII Art

Visual art created from text characters, originally limited to the 95 printable ASCII characters. Unicode expands the palette with box-drawing …

Base64

Binary-to-text encoding that represents binary data using 64 ASCII characters (A–Z, a–z, 0–9, +, /). Used for embedding binary data …

Big5

Mã hóa chữ Hán phồn thể được sử dụng chủ yếu ở Đài Loan và Hồng Kông, mã hóa khoảng …

Bộ ký tự IANA

Sổ đăng ký chính thức tên mã hóa ký tự do IANA duy trì, được sử dụng trong tiêu đề …

Dấu thứ tự byte

U+FEFF được đặt ở đầu luồng văn bản để chỉ ra thứ tự byte và mã hóa. Cần thiết cho …

EBCDIC

Mã trao đổi dữ liệu thập phân được mã hóa nhị phân mở rộng (Extended Binary Coded Decimal Interchange Code). …

EUC-KR

Mã hóa ký tự tiếng Hàn dựa trên KS X 1001, ánh xạ các âm tiết Hangul và Hanja sang …

GB2312 / GB18030

Họ mã hóa ký tự chữ Hán giản thể: GB2312 (6.763 ký tự) phát triển thành GBK rồi GB18030, tiêu …

ISO 8859

Họ các mã hóa đơn byte 8-bit dành cho các nhóm ngôn ngữ khác nhau. ISO 8859-1 (Latin-1) là cơ …

Mã hóa ký tự

Hệ thống ánh xạ ký tự sang chuỗi byte để lưu trữ và truyền dữ liệu số. Mỗi tệp văn …

Shift JIS

Mã hóa ký tự tiếng Nhật kết hợp ASCII/JIS Roman đơn byte với kanji JIS X 0208 hai byte. Vẫn …

UCS-2

Mã hóa 2 byte có độ dài cố định lỗi thời, chỉ bao gồm BMP (U+0000–U+FFFF). Tiền thân của UTF-16, …

UTF-16

Mã hóa Unicode có độ dài thay đổi sử dụng 2 hoặc 4 byte (1 hoặc 2 đơn vị mã …

UTF-32

Mã hóa Unicode có độ dài cố định sử dụng chính xác 4 byte cho mỗi ký tự. Đơn giản …

UTF-8

Mã hóa Unicode có độ dài thay đổi sử dụng 1–4 byte cho mỗi ký tự. Định dạng mã hóa …

Windows-1252

Bộ ký tự của Microsoft mở rộng từ ISO 8859-1, bổ sung dấu ngoặc kép, dấu gạch ngang dài và …

Tiêu chuẩn Unicode (25)

Basic Multilingual Plane (BMP)

Mặt phẳng 0 (U+0000–U+FFFF), chứa các ký tự được sử dụng phổ biến nhất bao gồm Latin, Hy Lạp, Cyrillic, …

Chính sách ổn định Unicode

Đảm bảo rằng một khi ký tự được gán, điểm mã và tên của nó không bao giờ thay đổi. …

CJK

Trung Quốc, Nhật Bản và Hàn Quốc — thuật ngữ tập thể cho khối ký tự Hán thống nhất và …

Giá trị vô hướng Unicode

Bất kỳ điểm mã nào ngoại trừ các điểm mã surrogate (U+D800–U+DFFF). Tập hợp các giá trị hợp lệ có …

Han Unification

The process of mapping Chinese, Japanese, and Korean ideographs that share a common historical origin to a single Unicode code …

Hangul Jamo

The individual consonant and vowel components (jamo) of the Korean Hangul writing system. Unicode encodes both precomposed Hangul syllables (U+AC00–U+D7A3) …

Hiệp hội Unicode

Tổ chức phi lợi nhuận phát triển và duy trì Tiêu chuẩn Unicode. Các thành viên bao gồm Apple, Google, …

ISO 10646 / Universal Character Set

Tiêu chuẩn quốc tế (ISO/IEC 10646) được đồng bộ hóa với Unicode, định nghĩa cùng bộ ký tự và điểm …

Không gian mã

Toàn bộ phạm vi các điểm mã Unicode có thể có: U+0000 đến U+10FFFF (tổng cộng 1.114.112), được chia thành …

Ký tự thay thế

Các điểm mã U+D800–U+DFFF được dành riêng cho các cặp thay thế UTF-16. Không phải là các giá trị vô …

Ký tự trừu tượng

Đơn vị thông tin dùng để tổ chức, điều khiển hoặc biểu diễn dữ liệu văn bản — thực thể …

Ký tự được gán

Điểm mã đã được gán ký tự trong một phiên bản Unicode. Tính đến Unicode 16.0, có 154.998 điểm mã …

Mặt phẳng

Một khối điểm mã liên tiếp gồm 65.536 điểm. Unicode có 17 mặt phẳng (0–16): Mặt phẳng 0 là BMP, …

Mặt phẳng bổ sung

Các mặt phẳng 1–16 (U+10000–U+10FFFF), chứa emoji, chữ viết lịch sử, phần mở rộng CJK và ký hiệu âm nhạc. …

Phi ký tự

Các điểm mã được dành vĩnh viễn cho sử dụng nội bộ (66 tổng cộng): U+FDD0–U+FDEF và U+nFFFE/U+nFFFF cho mỗi …

Phiên bản Unicode

Các phiên bản chính của Tiêu chuẩn Unicode, mỗi phiên bản bổ sung ký tự, chữ viết và tính năng …

Unicode

Tiêu chuẩn mã hóa ký tự toàn cầu gán một số duy nhất (điểm mã) cho mọi ký tự trong …

Unicode Character Database (UCD)

Tập hợp các tệp dữ liệu có thể đọc được bằng máy định nghĩa tất cả thuộc tính ký tự …

Unicode Standard Annex (UAX)

Normative or informative documents that are integral parts of the Unicode Standard. UAX#9 (Bidi Algorithm), UAX#11 (East Asian Width), UAX#15 …

Unicode Technical Report (UTR)

Informational documents published by the Unicode Consortium covering specific topics like security mechanisms (UTR#39), text segmentation (UTR#29), and line breaking …

Vùng sử dụng riêng

Các phạm vi dành riêng nơi các tổ chức có thể gán ký tự của riêng họ: BMP PUA (U+E000–U+F8FF) …

Điểm mã

Giá trị số trong không gian mã Unicode (U+0000 đến U+10FFFF), được viết dưới dạng U+XXXX. Không phải tất cả …

Điểm mã chưa được gán

Điểm mã chưa được gán ký tự trong bất kỳ phiên bản Unicode nào, được phân loại là Cn (Chưa …

Điểm mã dành riêng

Điểm mã được dành riêng cho việc chuẩn hóa trong tương lai, khác với các ký tự không phải ký …

Đơn vị mã

Đơn vị mã hóa tối thiểu: một byte 8-bit trong UTF-8, một từ 16-bit trong UTF-16, một từ 32-bit trong …

Thuộc tính (19)

Bí danh tên

Tên thay thế cho các ký tự, vì tên Unicode không thể thay đổi theo chính sách ổn định. Được …

Có thể bỏ qua mặc định

Các ký tự không có hiệu ứng hiển thị và có thể bị bỏ qua bởi các quy trình không …

Cụm grapheme

Ký tự mà người dùng cảm nhận được — điều cảm giác như một đơn vị duy nhất. Có thể …

Danh mục chung

Phân loại mọi điểm mã vào một trong 30 danh mục (Lu, Ll, Nd, So, v.v.) nhóm thành 7 lớp …

Danh mục hai chiều

Thuộc tính xác định cách một ký tự hoạt động trong văn bản hai chiều (LTR, RTL, yếu, trung tính). …

Dấu câu

Các ký tự dùng để tổ chức và làm rõ ngôn ngữ viết: dấu chấm, dấu phẩy, dấu gạch ngang, …

East Asian Width

Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or Neutral. Wide characters (CJK ideographs, katakana) occupy two …

Giá trị số

Cách diễn giải số của một ký tự, nếu có: giá trị chữ số (0–9), giá trị thập phân, hoặc …

Hệ thống chữ viết

Hệ thống chữ viết mà một ký tự thuộc về (ví dụ: Latin, Cyrillic, Hán). Unicode 16.0 xác định 168 …

Joining Type

Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. Types include Right_Joining, Left_Joining, Dual_Joining, and Non_Joining.

Khối

Phạm vi điểm mã liên tiếp được đặt tên (ví dụ: Basic Latin = U+0000–U+007F). Unicode 16.0 xác định 336 …

Lớp kết hợp

Giá trị số (0–254) kiểm soát thứ tự các dấu kết hợp trong quá trình phân tích chuẩn, xác định …

Phân tách

Việc ánh xạ một ký tự thành các thành phần của nó. Phân tích chuẩn bảo toàn ý nghĩa (é …

Script Extensions

Unicode property listing all scripts that use a character, broader than the single-valued Script property. Common characters like digits have …

Thuộc tính phiên bản

Phiên bản Unicode mà trong đó một ký tự được gán lần đầu tiên. Hữu ích để xác định hỗ …

Thuộc tính phản chiếu

Các ký tự mà glyph của chúng nên được phản chiếu ngang trong ngữ cảnh RTL. Ví dụ: ( → …

Tương đương chuẩn tắc

Hai chuỗi ký tự có ngữ nghĩa giống hệt nhau và nên được xử lý như nhau. Ví dụ: é …

Tương đương tương thích

Hai chuỗi ký tự có cùng nội dung trừu tượng nhưng có thể khác về hình thức. Rộng hơn tương …

Ánh xạ chữ hoa/thường

Các quy tắc chuyển đổi ký tự giữa chữ hoa, chữ thường và chữ đầu câu. Có thể phụ thuộc …

Thuật toán (15)

Case Folding

Mapping characters to a common case form for case-insensitive comparison. More comprehensive than lowercasing: German ß → ss, Turkish İ …

Chuẩn hóa

Quá trình chuyển đổi văn bản Unicode sang dạng chuẩn chuẩn. Bốn dạng: NFC (đã hợp thành), NFD (đã phân …

Grapheme Cluster Boundary

Rules (UAX#29) for determining where one user-perceived character ends and another begins. Critical for cursor movement, text selection, and correctly …

Loại trừ tổ hợp

Các ký tự bị loại trừ khỏi quá trình kết hợp chuẩn (NFC) để ngăn phân tách không khởi đầu …

NFC (Canonical Composition)

Dạng chuẩn C: phân tách rồi hợp thành lại theo chuẩn, tạo ra dạng ngắn nhất. Khuyến nghị để lưu …

NFD (Canonical Decomposition)

Dạng chuẩn D: phân tách hoàn toàn mà không hợp thành lại. Được sử dụng bởi hệ thống tập tin …

NFKC (Compatibility Composition)

Dạng chuẩn KC: phân tách tương thích rồi hợp thành chuẩn. Kết hợp các ký tự có hình thức tương …

NFKD (Compatibility Decomposition)

Dạng chuẩn KD: phân tách tương thích mà không hợp thành lại. Là chuẩn hóa mạnh nhất, mất nhiều thông …

Phân đoạn văn bản

Các thuật toán tìm ranh giới trong văn bản: ranh giới cụm grapheme, từ và câu. Rất quan trọng cho …

Ranh giới câu

Vị trí giữa các câu theo quy tắc Unicode. Phức tạp hơn việc tách bằng dấu chấm — xử lý …

Ranh giới từ

Vị trí giữa các từ được xác định bởi quy tắc ngắt từ Unicode. Không chỉ đơn giản là tách …

String Comparison

Comparing Unicode strings requires normalization (NFC/NFD) and optionally collation (locale-aware sorting). Binary comparison of code points alone gives incorrect results …

Thuật toán hai chiều

Thuật toán xác định thứ tự hiển thị ký tự trong văn bản có hướng hỗn hợp (ví dụ: tiếng …

Thuật toán ngắt dòng

Các quy tắc xác định vị trí văn bản có thể xuống dòng, xem xét các thuộc tính ký tự, …

Thuật toán sắp xếp

Thuật toán chuẩn để so sánh và sắp xếp các chuỗi Unicode bằng so sánh đa cấp: ký tự cơ …

Typography (19)

Chữ ghép

Hai ký tự trở lên được kết hợp thành một glyph duy nhất. Có thể là chữ ghép kiểu chữ …

Chữ hoa nhỏ

Dạng chữ hoa ở chiều cao của chữ thường. CSS: font-variant: small-caps. Unicode cũng có các chữ cái nhỏ thực …

CSS unicode-range

CSS @font-face descriptor specifying which Unicode code points a font should cover. Enables downloading only the font subset needed for …

Dấu chấm lửng

U+2026 HORIZONTAL ELLIPSIS (…). Một ký tự duy nhất thay thế ba dấu chấm, đúng về mặt kiểu chữ và …

Dấu ngoặc kép

Cặp dấu chấm câu bao quanh lời nói trực tiếp hoặc trích dẫn. Unicode bao gồm dấu thẳng (""), dấu …

Dấu phụ

Dấu được thêm vào chữ cái để thay đổi cách phát âm hoặc nghĩa. Có thể được tổng hợp sẵn …

Em / En (Đơn vị kiểu chữ)

Em: chiều rộng bằng kích thước phông chữ. En: bằng một nửa em. Dùng để định nghĩa độ rộng của …

Font Fallback

The mechanism by which a rendering engine substitutes glyphs from a secondary font when the primary font lacks coverage for …

Gạch ngang

Dấu chấm câu dùng để phân tách các phần của câu hoặc chỉ phạm vi. Unicode định nghĩa nhiều loại …

Kerning

Điều chỉnh khoảng cách giữa các cặp ký tự cụ thể để đạt được sự hài hòa thị giác (ví …

Khoảng trắng không ngắt

U+00A0. Dấu cách ngăn không cho xuống dòng tại vị trí đó. HTML:  . Dùng giữa số và đơn vị …

Ký tự chiều rộng bằng 0

Các ký tự có chiều rộng tiến bằng không — vô hình khi kết xuất nhưng ảnh hưởng đến hành …

Ký tự khoảng trắng

Các ký tự đại diện cho khoảng trống ngang hoặc dọc nhưng không có glyph hiển thị. Unicode định nghĩa …

Ký tự kết hợp

Ký tự gắn vào ký tự cơ sở trước đó để thay đổi nó. Danh mục chung: Mn (không chiếm …

Ký tự đồ họa

Hình thức hiển thị trực quan của một ký tự khi được phông chữ kết xuất. Một ký tự có …

OpenType

Modern font format developed by Microsoft and Adobe supporting up to 65,535 glyphs, advanced typographic features (ligatures, alternates, kerning), and …

Phông chữ

Một cài đặt cụ thể của kiểu chữ ở kích thước, độ đậm và kiểu dáng nhất định. Trong sắp …

RTL (Right-to-Left)

Hướng văn bản mà ký tự chạy từ phải sang trái. Dùng cho tiếng Ả Rập, Hebrew, Thaana và các …

Web Fonts

Fonts downloaded by the browser to render text, declared via CSS @font-face. WOFF2 is the standard format. Unicode subsetting and …

Phương thức nhập (9)

Web & HTML (16)

Bộ chọn biến thể

Các ký tự (U+FE00–U+FE0F, U+E0100–U+E01EF) chọn biến thể glyph cụ thể. VS15 (U+FE0E) = dạng trình bày văn bản, VS16 …

Bộ ký tự Content-Type

Tham số header HTTP khai báo mã hóa ký tự của phản hồi (Content-Type: text/html; charset=utf-8). Ghi đè mọi khai …

Bộ nối từ

U+2060. Ký tự không chiều rộng ngăn chặn ngắt dòng. Thay thế hiện đại cho U+FEFF (BOM) như một dấu …

CSS Text Direction

CSS properties (direction, writing-mode, unicode-bidi) controlling text layout direction. Works with Unicode Bidi Algorithm for mixed LTR/RTL content in web …

Hiển thị emoji

Kết xuất một ký tự với glyph emoji màu sắc, thường sử dụng Variation Selector 16 (U+FE0F). Một số ký …

Hiển thị văn bản

Kết xuất một ký tự với glyph văn bản một màu đơn giản thay vì emoji màu sắc, thường sử …

Internationalized Domain Name (IDN)

Tên miền chứa ký tự Unicode không phải ASCII, được lưu trữ nội bộ dưới dạng Punycode (xn--...) nhưng hiển …

JavaScript Intl API

ECMAScript Internationalization API providing locale-aware string comparison (Collator), number formatting (NumberFormat), date formatting (DateTimeFormat), and segmentation (Segmenter).

Mã hóa phần trăm (mã hóa URL)

Mã hóa các ký tự không phải ASCII và ký tự dành riêng trong URL bằng cách thay thế mỗi …

Punycode

Mã hóa tương thích ASCII của tên miền Unicode, chuyển đổi nhãn quốc tế hóa thành chuỗi ASCII có tiền …

Tham chiếu ký tự có tên

HTML entity sử dụng tên dễ đọc: © → ©, — → —. HTML5 định nghĩa 2.231 tham chiếu có …

Tham chiếu ký tự số

HTML entity sử dụng số điểm mã Unicode: thập phân (© → ©) hoặc thập lục phân (© → ©). …

Tham chiếu ký tự XML

Phiên bản XML của tham chiếu ký tự số: ✓ hoặc ✓. XML chỉ có 5 thực thể tên (& …

Thuộc tính CSS content

Thuộc tính CSS chèn nội dung được tạo ra thông qua các phần tử giả ::before và ::after bằng cách …

Thực thể HTML

Biểu diễn văn bản của một ký tự trong HTML. Ba dạng: tên (&), thập phân (&), thập lục phân …

Unicode in CSS

CSS supports Unicode via escape sequences (\2713 for ✓), the content property for generated text, unicode-range for font subsetting, and …

Lập trình và phát triển (13)

Biểu thức chính quy Unicode

Mẫu regex sử dụng thuộc tính Unicode: \p{L} (bất kỳ chữ cái nào), \p{Script=Greek} (chữ viết Hy Lạp), \p{Emoji}. Hỗ …

Chuỗi ký tự

Một chuỗi ký tự trong ngôn ngữ lập trình. Biểu diễn nội bộ khác nhau: UTF-8 (Go, Rust, bản dựng …

Chuỗi thoát Unicode

Cú pháp biểu diễn ký tự Unicode trong mã nguồn. Khác nhau theo ngôn ngữ: \u2713 (Python/Java/JS), \u{2713} (JS/Ruby/Rust), \U00012345 …

Cặp thay thế

Hai đơn vị mã 16-bit (surrogate cao U+D800–U+DBFF + surrogate thấp U+DC00–U+DFFF) cùng nhau mã hóa một ký tự bổ …

Java Unicode

Java strings use UTF-16 internally. char is 16-bit (only BMP). For supplementary characters, use codePointAt() and Character.toChars(). Java's \uXXXX escapes …

Ký tự null

U+0000 (NUL). Ký tự Unicode/ASCII đầu tiên, được sử dụng làm dấu kết thúc chuỗi trong C/C++. Rủi ro bảo …

Ký tự thay thế

U+FFFD (�). Hiển thị khi bộ giải mã gặp chuỗi byte không hợp lệ — biểu tượng phổ quát cho …

Ký tự vô hình

Bất kỳ ký tự nào không có glyph hiển thị: khoảng trắng, ký tự không chiều rộng, ký tự điều …

Mojibake

Văn bản bị hỏng do giải mã byte bằng mã hóa sai. Thuật ngữ tiếng Nhật (文字化け). Ví dụ: 'café' …

Mã hóa / Giải mã

Mã hóa chuyển đổi ký tự thành byte (str.encode('utf-8')); giải mã chuyển đổi byte thành ký tự (bytes.decode('utf-8')). Làm đúng …

Python Unicode

Python 3 uses Unicode strings by default (str = UTF-8 internally via PEP 393). Key features: \N{name} escapes, unicodedata module, …

Rust Unicode

Rust strings (str/String) are guaranteed valid UTF-8. char type represents a Unicode scalar value (4 bytes). Iteration via .chars() yields …

Sự mơ hồ về độ dài chuỗi

"Độ dài" của một chuỗi Unicode phụ thuộc vào đơn vị: đơn vị mã (JavaScript .length), điểm mã (Python len()) …

Bảo mật (10)

Bidi Text Attack

Exploiting Unicode bidirectional control characters to disguise malicious code or filenames. The 'Trojan Source' attack (CVE-2021-42574) uses bidi overrides to …

Giả mạo Unicode

Sử dụng các tính năng Unicode để lừa người dùng: homoglyph cho tên miền giả, ghi đè bidi cho phần …

Ký tự dễ nhầm lẫn

Thuật ngữ chính thức của Unicode cho các cặp ký tự có thể bị nhầm lẫn về mặt thị giác, …

Ký tự đồng dạng

Các ký tự từ các chữ viết khác nhau trông giống hệt nhau hoặc rất giống nhau, chẳng hạn như …

Normalization Attack

Exploiting Unicode normalization to bypass security filters. Input validated before normalization may change form after: 'fi' (U+FB01) normalizes to 'fi', …

Phát hiện kịch bản hỗn hợp

Xác định văn bản kết hợp các ký tự từ các chữ viết khác nhau (ví dụ: Latin + Cyrillic). …

Tấn công ghi đè hai chiều

Sử dụng các ký tự ghi đè hai chiều Unicode (U+202A–U+202E, U+2066–U+2069) để ngụy trang tên tệp hoặc mã độc …

Tấn công đồng âm IDN

Sử dụng các ký tự Unicode trông giống nhau trong tên miền để mạo danh các trang web hợp pháp. …

Zero Width Joiner (ZWJ)

U+200D. Yêu cầu các ký tự liền kề được nối với nhau. Quan trọng cho chuỗi emoji (👩+ZWJ+💻=👩‍💻). Trong chữ …

Zero Width Non-Joiner (ZWNJ)

U+200C. Ngăn chặn việc nối các ký tự liền kề. Thiết yếu trong tiếng Farsi/Ả Rập để có dạng chữ …

Biểu tượng cảm xúc (6)

Khác (1)