Zeichensatzprobleme

Idiot · 27 April 2004

Hi,

Die HTML-Seiten von WoH legen keinen Zeichensatz fest, obwohl das vom Standard gefordert wird. (Siehe hier)
Der Satz, auf den ich anspiele, ist: "To promote interoperability, SGML requires that each application (including HTML) specify its document character set."

Dies ließe sich in diesem Forum erreichen, indem in den generierten HTML-Seiten im Header, also zwischen dem <head> und dem </head> Tag, noch der Tag <META http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> eingefügt würde.

Ich nehme an, dadurch, dass die meisten Benutzer hier wohl ein deutsches MS-Windows OS benutzen, wird diese Problematik bis jetzt kaum zu Tage gekommen sein, aber standardkonform ist das trotzdem nicht. Sobald jemand das Forum benutzen möchte, der nicht latin-1 als Standardzeichensatz verwendet (ich zum Beispiel - ich benutze utf-8), hat derjenige erst mal ein Problem.
Auch internationale Besucher sind hier erstmal im Nachteil - der Standard Latin-1 Zeichensatz ist eben ausschließlich in Nordamerika und Westeuropa wirklich gängig, in praktisch dem gesamten Rest der Welt werden andere benutzt.

Wär nicht schlecht, wenn Ihr es eurer Forensoftware beigebogen bekämet, den erwähnten Tag oben in ihre Seiten einzufügen.

-----------------------

Für die Leute, die nicht wissen, wovon ich hier eigentlich rede, hier ein wenig Aufklärung:

W3C: Das World Wide Web Consortium. Hier wurde Anfang der 90er das WWW entwickelt, also in erster Linie das HTML-Format und HTTP. Das W3C (und nicht M$ - *huestel*) ist noch immer das oberste Standardsetzende Gremium in allem was das WWW angeht.

Zeichensatz: Ein Zeichensatz ist sozusagen eine Vereinbarung darüber, welcher Bytewert welchem Zeichen entspricht.
Wie ihr hoffentlich wisst, können Computer nur mit Nullen und Einsen umgehen, welche üblicherweise zu acht zu einem Byte zusammengefasst werden, mit dem man mit Hilfe des von Leibniz entwickelten binären Zahlensystems alle ganzen Zahlen von 0 bis 255 (oder wahlweise auch von -127 bis 128) einschließlich darstellen kann.
Nun möchte man Computer aber oftmals ganz gerne dazu benutzen, in welcher Weise auch immer, Buchstaben und Texte zu handhaben und darzustellen. Ein Haufen von Zahlen ist hier erstmal nicht sonderlich hilfreich. Man behilft sich hier mit einer Art gedachten Tabelle, die jedem Buchstaben, Satzzeichen und ähnlichem, dass man benutzen möchte eindeutig eine Zahl zuweist und umgekehrt. Damit können Computer zwar jetzt Text handhaben, aber sobald 2 Computer untereinander Texte austauschen, muss - logisch - sichergestellt werden, dass beide die gleiche Zeichentabelle benutzen. Das war in den Anfängen der Computerzeit, als Entwicklung und Nutzung von Computersystemen noch weitgehend auf das Gebiet der USA beschränkt war, noch kein Problem (Okay, stimmt nicht ganz - aber wem sagt heutzutage schon EBCDIC noch was?).
Sobald jedoch auch andere Länder anfingen, Computer zu nutzen, kamen eine Menge Veränderungen. Für den West- und Mitteleuropäischen Markt zum Beispiel wurden den Tabellen ein paar Zeichen hinzugefügt, damit beispielsweise die Deutschen ihre Umlaute und ihr s-z oder die Franzosen ihre Akzente benutzen. Anderswo, wie z.B. in Griechenland, Russland, Israel oder im arabischen Bereich mussten natürlich komplett neue Tabellen herhalten, die zu den ursprünglichen komplett inkompatibel waren/sind. In noch weiteren Ländern (China, Japan, Korea) hat noch nicht einmal das gereicht, denn die in diesen Gegenden verwandten Alphabete sind einfach viel zu umfangreich, als dass man mit einem Byte pro Zeichen auskäme. Hier mussten also Multibyte Zeichentabellen her, die - man ahnt es bereits - ihren ganz eigenen Rattenschwanz an Problemen mit sich her ziehen.
Zusammenfassend lässt sich sagen: Es gibt einen großen Haufen an ganz oder teilweise inkompatiblen Zeichensätzen, der teilweise nötig ist, um den Anforderungen der vielen veschieden Sprachen auf der Welt gerecht zu werden, teilweise aber auch einfach nur historisch gewachsen ist.

UTF-8: UTF-8 (_U_nicode _T_ransfer _F_ormat _8_-Bit) ist einer der Unicode-Encodings. Unicode ist ein Zeichensatz, der es sich zum Ziel gemacht hat, sämtliche in aktiver Nutzung befindlichen Alphabete auf dieser Erde komplett zu unterstützen. Unicode ist schon seit einigen Jahren in aktiver Benutzung und hat das Zeug, langfristig die Lösung schlechthin für das weiter oben angesprochene Zeichensatzproblem zu sein. UTF-8 ist eine Codierung, die es mit einem cleveren Trick schafft, zum guten alten ASCII kompatibel zu sein, so lange man nur Zeichen aus dem Standard-ASCII Reportoire verwendet (also beispielsweise keine deutschen Sonderzeichen), aber gleichzeitig noch sämtliche Zeichen aus Unicode darstellen kann.
Persönlich schwöre ich auf Unicode, da es die einzige (mir bekannte) Möglichkeit ist, mit ganz normaler Standardsoftware im selben Kontext sowohl japanische Schrift als auch deutsche Sonderzeichen zu verwenden.
Weitergehende Informationen gibt es auf www.unicode.org

Zeichensatzprobleme

Idiot

Gläubiger