プロパティ

ケースマッピング

文字を大文字・小文字・タイトルケースに変換するルール。ロケール依存の場合があり(トルコ語のI問題)、1対多のマッピングもあります(ß → SS)。

· Updated

What Is Unicode Case Mapping?

Case mapping is the process of converting a string to its uppercase, lowercase, or titlecase form. While most programmers know str.upper() and str.lower() from ASCII, Unicode case mapping is vastly more complex: it is locale-sensitive, context-sensitive, and sometimes involves one-to-many mappings where a single character maps to multiple characters.

Every cased character in Unicode has three case-mapping properties: Uppercase_Mapping, Lowercase_Mapping, and Titlecase_Mapping. For most characters these are simple one-to-one mappings, but the Unicode Standard specifies special cases that require careful handling.

Notable Special Cases

German ß (LATIN SMALL LETTER SHARP S): - Lowercase: ß (unchanged) - Uppercase: SS (two characters!) - This is a one-to-many mapping: "straße".upper()"STRASSE"

Turkish/Azerbaijani dotted and dotless I: - Turkish has four I characters: I (capital, dotless), İ (capital, dotted), ı (small, dotless), i (small, dotted) - Correct Turkish uppercasing: iİ (NOT I); ıI (NOT i) - Python's default locale-insensitive str.upper() gives the wrong result for Turkish

Greek final sigma ς (U+03C2): - Used only at the end of a word; otherwise σ (U+03CF) is used - Uppercasing: ς → Σ (same as σ) - Lowercasing: Σ → σ or ς depending on position (context-sensitive)

# Simple case mapping
print("hello".upper())      # HELLO
print("HELLO".lower())      # hello
print("hello world".title())  # Hello World

# German ß one-to-many
sharp_s = "straße"
print(sharp_s.upper())      # STRASSE  (ß → SS)
print(len(sharp_s))         # 6
print(len(sharp_s.upper())) # 7

# Turkish locale-sensitive (needs locale or explicit mapping)
import locale
# locale.setlocale(locale.LC_ALL, "tr_TR.UTF-8")  # system-dependent
dotted_i = "i"
print(dotted_i.upper())     # I  (wrong for Turkish)

# unicodedata does NOT do case mapping; use str methods
import unicodedata
# unicodedata.normalize does not change case
# For advanced case folding, use casefold():
print("straße".casefold())   # strasse  (case-fold for comparison)
print("STRASSE".casefold())  # strasse

# Case-insensitive comparison (correct approach):
a = "straße"
b = "STRASSE"
print(a.casefold() == b.casefold())  # True

Case Folding vs Case Mapping

Case folding (str.casefold()) is a more aggressive form of lowercasing designed for case-insensitive comparison. It is not appropriate for display. For example, casefold() maps ß → ss and German ü → ü (same), whereas lower() keeps ß as ß.

Quick Facts

Property Value
Unicode properties Uppercase_Mapping, Lowercase_Mapping, Titlecase_Mapping
Python functions str.upper(), str.lower(), str.title(), str.casefold()
German ß upper() → SS (one-to-many mapping)
Turkish Requires locale-sensitive mapping for correct İ/ı handling
Greek sigma Context-sensitive: final ς vs medial σ
Case folding str.casefold() — for comparison, not display
Spec reference Unicode Standard Chapter 3.13, SpecialCasing.txt

関連用語

プロパティ のその他の用語

Age プロパティ

文字が最初に割り当てられたUnicodeバージョン。システムやソフトウェアバージョン間での文字サポートを判断するのに役立ちます。

East Asian Width

Unicode property (UAX#11) classifying characters as Narrow, Wide, Fullwidth, Halfwidth, Ambiguous, or …

Joining Type

Unicode property controlling how Arabic and Syriac characters connect to adjacent characters. …

Script Extensions

Unicode property listing all scripts that use a character, broader than the …

スクリプト

文字が属する文字体系(例:ラテン、キリル、漢字)。Unicode 16.0は168個のスクリプトを定義し、Scriptプロパティはセキュリティと混在スクリプト検出に重要です。

デフォルト無視文字

サポートしていないプロセスで目に見える効果なく無視できる文字で、異体字セレクター・ゼロ幅文字・言語タグなどが含まれます。

ブロック

名前付きの連続したコードポイント範囲(例:基本ラテン = U+0000〜U+007F)。Unicode 16.0は336個のブロックを定義し、すべてのコードポイントはちょうど1つのブロックに属します。

ミラープロパティ

RTLコンテキストでグリフを水平に反転すべき文字。例:( → )、[ → ]、{ → }、« → »。

一般カテゴリー

すべてのコードポイントを30個のカテゴリ(Lu・Ll・Nd・Soなど)の1つに分類する体系で、7つの主要クラス(文字・記号・数字・句読点・記号・区切り・その他)にグループ化されています。

互換等価

同じ抽象的内容を持つが外観が異なる場合がある2つの文字シーケンス。正規等価より広い概念。例:fi ≈ fi、² ≈ 2。