In Kürze: UTF-8
UTF-8 ist eine weit verbreitete Zeichenkodierung, die eine flexible und effiziente Darstellung von Unicode-Zeichen ermöglicht. Sie ist abwärtskompatibel zu ASCII und wird von über 93 % aller Webseiten genutzt.
Erklärung: UTF-8
Was ist UTF-8?
UTF-8 steht für Unicode Transformation Format – 8 Bits. Die „8“ bezieht sich auf die Verwendung von 8-Bit-Blöcken zur Darstellung von Zeichen. Die Anzahl der Blöcke variiert zwischen 1 und 4, was bedeutet, dass UTF-8 sowohl kompakt als auch in der Lage ist, eine Vielzahl von Unicode-Zeichen darzustellen. Diese Zeichen umfassen Buchstaben, Zahlen, Interpunktion und spezielle Symbole wie Währungen und Emojis. Seit 2009 ist UTF-8 die dominierende Kodierung im Internet und machte im März 2020 93,1 % aller Webseiten aus.
Entwicklung von UTF-8
Die Kodierung wurde im September 1992 von Ken Thompson und Rob Pike im Rahmen des Plan-9-Betriebssystems entwickelt. Zunächst als FSS-UTF bezeichnet, wurde sie später standardisiert und in UTF-8 umbenannt.
Wichtigste Eigenschaften von UTF-8
- Kompatibilität: UTF-8 ist abwärtskompatibel zu ASCII, da die ersten 128 Zeichen identisch sind.
- Redundanz: UTF-8 verwendet eine variable Länge von 1 bis 4 Bytes, was die Dateigröße optimiert.
Vorläufer von UTF-8
Vor der Einführung von UTF-8 wurde hauptsächlich ASCII verwendet, ein Zeichencodierungsstandard für die digitale Kommunikation. ASCII umfasst grundlegende Zeichen, Satzzeichen und Buchstaben des englischen Alphabets. Mit der zunehmenden Internationalisierung des Internets wurde ASCII jedoch unzureichend, da viele Nutzer auf nicht-lateinische Schriftzeichen angewiesen waren.
Funktionsweise von UTF-8
Computer speichern Informationen im Binärsystem, wobei die kleinste Einheit ein Bit ist. UTF-8 kodiert Zeichen in einem bis vier Bytes, wobei die ersten 128 Zeichen mit ASCII übereinstimmen. Dies ermöglicht eine einfache Bearbeitung mit nicht-UTF-8-fähigen Texteditoren.
Aufbau von UTF-8
UTF-8 kodiert Unicode-Codepunkte in ein bis vier Bytes. Unicode definiert jedem Zeichen eine Nummer, die von UTF-Codierungen in Bits und Bytes umgesetzt wird. Die Struktur von UTF-8 ist wie folgt:
- Ein Byte: Die ersten 128 Zeichen (entsprechend ASCII).
- Zwei Bytes: Die nächsten 1.920 Zeichen, einschließlich vieler lateinischer und nicht-lateinischer Alphabete.
- Drei Bytes: Zeichen für Sprachen wie Chinesisch, Japanisch und Koreanisch.
- Vier Bytes: Historische Schriftzeichen, mathematische Symbole und Emojis.
Praktische Anwendung von UTF-8
Webseiten und E-Mails können in verschiedenen Zeichencodierungen gespeichert werden, jedoch wird empfohlen, UTF-8 zu verwenden, um Kompatibilitätsprobleme zu vermeiden. Das Internet-Mail Consortium (IMC) und das World Wide Web Consortium (W3C) empfehlen die Verwendung von UTF-8 für alle E-Mails und Web-Dateien.
« Back to Glossary Index