Ánh xạ chữ hoa/thường
Embed This Widget
Add the script tag and a data attribute to embed this widget.
Embed via iframe for maximum compatibility.
<iframe src="https://unicodefyi.com/iframe/glossary/case-mapping/" width="420" height="400" frameborder="0" style="border:0;border-radius:10px;max-width:100%" loading="lazy"></iframe>
Paste this URL in WordPress, Medium, or any oEmbed-compatible platform.
https://unicodefyi.com/glossary/case-mapping/
Add a dynamic SVG badge to your README or docs.
[](https://unicodefyi.com/glossary/case-mapping/)
Use the native HTML custom element.
Các quy tắc chuyển đổi ký tự giữa chữ hoa, chữ thường và chữ đầu câu. Có thể phụ thuộc vào ngôn ngữ (vấn đề chữ I trong tiếng Thổ Nhĩ Kỳ) và một-nhiều (ß → SS).
What Is Unicode Case Mapping?
Case mapping is the process of converting a string to its uppercase, lowercase, or titlecase form. While most programmers know str.upper() and str.lower() from ASCII, Unicode case mapping is vastly more complex: it is locale-sensitive, context-sensitive, and sometimes involves one-to-many mappings where a single character maps to multiple characters.
Every cased character in Unicode has three case-mapping properties: Uppercase_Mapping, Lowercase_Mapping, and Titlecase_Mapping. For most characters these are simple one-to-one mappings, but the Unicode Standard specifies special cases that require careful handling.
Notable Special Cases
German ß (LATIN SMALL LETTER SHARP S):
- Lowercase: ß (unchanged)
- Uppercase: SS (two characters!)
- This is a one-to-many mapping: "straße".upper() → "STRASSE"
Turkish/Azerbaijani dotted and dotless I:
- Turkish has four I characters: I (capital, dotless), İ (capital, dotted), ı (small, dotless), i (small, dotted)
- Correct Turkish uppercasing: i → İ (NOT I); ı → I (NOT i)
- Python's default locale-insensitive str.upper() gives the wrong result for Turkish
Greek final sigma ς (U+03C2): - Used only at the end of a word; otherwise σ (U+03CF) is used - Uppercasing: ς → Σ (same as σ) - Lowercasing: Σ → σ or ς depending on position (context-sensitive)
# Simple case mapping
print("hello".upper()) # HELLO
print("HELLO".lower()) # hello
print("hello world".title()) # Hello World
# German ß one-to-many
sharp_s = "straße"
print(sharp_s.upper()) # STRASSE (ß → SS)
print(len(sharp_s)) # 6
print(len(sharp_s.upper())) # 7
# Turkish locale-sensitive (needs locale or explicit mapping)
import locale
# locale.setlocale(locale.LC_ALL, "tr_TR.UTF-8") # system-dependent
dotted_i = "i"
print(dotted_i.upper()) # I (wrong for Turkish)
# unicodedata does NOT do case mapping; use str methods
import unicodedata
# unicodedata.normalize does not change case
# For advanced case folding, use casefold():
print("straße".casefold()) # strasse (case-fold for comparison)
print("STRASSE".casefold()) # strasse
# Case-insensitive comparison (correct approach):
a = "straße"
b = "STRASSE"
print(a.casefold() == b.casefold()) # True
Case Folding vs Case Mapping
Case folding (str.casefold()) is a more aggressive form of lowercasing designed for case-insensitive comparison. It is not appropriate for display. For example, casefold() maps ß → ss and German ü → ü (same), whereas lower() keeps ß as ß.
Quick Facts
| Property | Value |
|---|---|
| Unicode properties | Uppercase_Mapping, Lowercase_Mapping, Titlecase_Mapping |
| Python functions | str.upper(), str.lower(), str.title(), str.casefold() |
| German ß | upper() → SS (one-to-many mapping) |
| Turkish | Requires locale-sensitive mapping for correct İ/ı handling |
| Greek sigma | Context-sensitive: final ς vs medial σ |
| Case folding | str.casefold() — for comparison, not display |
| Spec reference | Unicode Standard Chapter 3.13, SpecialCasing.txt |
Thuật ngữ liên quan
Thêm trong Thuộc tính
Tên thay thế cho các ký tự, vì tên Unicode không thể …
Các ký tự không có hiệu ứng hiển thị và có thể …
Ký tự mà người dùng cảm nhận được — điều cảm giác …
Phân loại mọi điểm mã vào một trong 30 danh mục (Lu, …
Thuộc tính xác định cách một ký tự hoạt động trong văn …
Các ký tự dùng để tổ chức và làm rõ ngôn ngữ …
Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or …
Cách diễn giải số của một ký tự, nếu có: giá trị …
Hệ thống chữ viết mà một ký tự thuộc về (ví dụ: …
Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. …