Kluriga frågor om "character set"

Tråden skapades och har fått 2 svar. Det senaste inlägget skrevs .
1

Jag försöker få lite kontroll över texktkodning och jag undrar om någon kan svara på följande:

1. I HTML-dokument anger man ju ofta (?) character set:

<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

Om vi antar att jag skapar ett html-dokument helt manuelt, t.ex. i Textredigeraren. Hur vet jag vilket character set jag då använder? Finns det ett systemspecifikt character set för Mac OS X som också Textredigeraren använder?

2. Om jag skapar ett html-dokument med ett authoring program (t.ex. Dreamweaver) bestäms då character set av programmet? Eller kan man påverka det själv?

3. Om man är noggrann med sina oumlauts, spelar det då egentligen någon större roll vilket character set som anges under characterset-taggen?

4. Klurigaste frågan om man får ett dokument med okänt character set och t.ex. tittar på det i Textredigeraren eller direkt i Terminal, finns det något (enkelt) trick för att lista ut vilket character set som dokumentet är skrivet i?

Svar på en eller flera frågor gör mig glad!

Ett av de jävligaste områdena som finns men här kommer några snabba svar och en länk:

1) Du kan *aldrig* veta med säkerhet vilken teckenkodning en textfil använder, om du inte angivit det någonstans enligt någon metod som det tolkande programmet förstår. Det är orsaken till att det "måste" stå vilken encoding som används. Olika program har olika standardinställningar för att spara och öppna text. I t.ex. Textredigeraren kan du vid både spara och öppna välja teckenkodning och du kan ändra standardinställningar i programinställningarna. Observera att det inte räcker att det står en viss sak i din content tag för att det också ska bli det som används i filen. Du kan alltså inte ändra teckenkodning genom att enbart skriva i ett annat character set i din contenttag. Det är upp till dig att både spara rätt och skriva rätt.

2) Du kan bestämma själv, även om det finns grundinställningar

3) "Umlauts" är ett jäkla skit från den gamla onda tiden. Använd unicode och slipp skräpet. Men i princip är din tanke riktig, om du kodar alla specialtecken så spelar det mindre roll vad du använder

4) Kort och gott: Nej. Det finns dock mer eller mindre intelligenta gissningar program kan göra.

Bra länk

http://www.joelonsoftware.com/articles/Unicode.html

Tack, känns som jag fick veta precis det jag frågade om.

1
Bevaka tråden