• Willkommen im Linux Club - dem deutschsprachigen Supportforum für GNU/Linux. Registriere dich kostenlos, um alle Inhalte zu sehen und Fragen zu stellen.

HTDIG und Umlaute

Hallo,

ich betreibe unter Opensuse 10.3 einen internen Apache-Server für QMS und lasse für das Programm HTDIG regelmäßig ein Rundig-Skript laufen mit der Option :

LANG="de_DE.UTF-8:de_DE:de"
SUPPORTED="de_DE.ISO-8859-15"

Nach Aufrufen des Webservers (IP-Nummer) wurden mir bisher unter Firefox die deutschen Umlaute korrekt dargestellt. Unter Opensuse 11.3 ist das jetzt anders. Ich habe schon verschiedene Einstellungen des Browsers ausprobiert, leider ohne Erfolg.

Weis jemand Rat ?

mfg
Padersuse
 
Hallo,

Es ist nicht klar wo Dein Problem ist. Ist es ein Browser Problem (Firefox in Deinem Fall)? -- wenn ja, was hat denn htdig damit zu tun? Oder ist es ein htdig Problem? -- wenn ja, was hat Firefox damit zu tun?

Werden im Firefox Umlaute generell korrekt angezeigt (z.B. wenn Du googlest)? wenn ja, hat Firefox nichts mit Deinem Problem zu tun.

Gruss,
Roland

Nachtrag -- Vielleicht hilft die htdig Dokumentation:

/usr/share/doc/packages/htdig/htdoc/index.html

Speziell FAQ 4.10 und 5.8
 
Hallo,

ein Problem des Browsers ist es wohl nicht, denn Firefox und auch Konqueror funktionieren einwandfrei. Die "locale"- Einstellung unter /etc/htdig/htdig.conf sind lautet "locale:de_DE". Erstaunlicherweise werden auch Umlaute in der conf-Datei nicht richtig dargestellt. Systemweit ist der Zeichensatz UTF-8 vorgegeben. Rundig lasse ich innerhalb eines Skriptes laufen, in dem folgender Zeichensatz eingstellt wird.

LANG="de_DE.UTF-8:de_DE:de"
SUPPORTED="de_DE.ISO-8859-15"


mfg
Padersuse
 
Hallo Padersuse,

Hast Du dieses Problem sowohl mit der Eingabe wie auch mit der Ausgabe?

Was ist effektiv die Ausgabe (im Firefox)? Wenn Du den Source Textx (im Firefox) inspizierst, wie sieht dort ein Buchstabe mit Umlaut aus? (sind es Unicode Bytes, oder html codes wie z.B. ä, oder sonst etwas). Du kanst den Source Text im Firefox darstellen (Firefox > View > Page Source), oder wenn es so nicht ersichtlich ist, die betreffende Seite herunterladen und dann mit einem hex editor anschauen (z.B. Okteta).

Wenn Du mal weisst was Du empfängst (wie Umlaute codiert sind) kannst Du vielleicht eher an das Problem rangehen. Ich könnte mir vorstellen dass z.B. ein einfaches Script (mit sed code s/a/b/g;) die Problem Bytes umwandeln könnten.

Gruss,
Roland
 
Hallo,

im Quelltext des Browsers wird z.B. "über" wie "&uuml" dargestellt oder "lösen" wie "lösen"

mfg
Padersuse
 
Hallo,

Ich habe mich nicht klar ausgedrückt, sorry.

Du hast jetzt gezeigt dass html code (z.B. ü) in Deinem Browser korrekt dargestellt werden -- dies war zu erwarten.

-1- Bitte öffne (im Browser) eine htdig Ausgabe wo eben solche Umlaute nicht richtig dargestellt werden.
-2- Download diese Seite in ein Verzeichnis.
-3- Öffne die Datei mit einem hex editor (z.B. Okteta) >>> was sind die binären Daten von den inkorrekt dargestellten Buchstaben?

Zum Beispiel: Wenn Du die Seite welche Du gerade liest in einem hex Editor betrachtest, dann zeigt Deine vorige Zeile:

"... im Quelltext des Browsers wird z.B. "über" wie "&uuml" dargestellt oder ..."

dass hier ein ü (u-Umlaut) als hex "c3 bc" (zwei Bytes), und ö (o-Umlaut) als "c3 b6" (zwei Bytes) codiert sind -- also unicode codierung.

Roland
 
Hallo,

"ö" wird z.B. dargestellt als "C3B6". Heßt das, htdig liefert einen unicode ab, obwohl ich systemweit utf-8 code eingestellt habe, bzw im rundig-Skript den Befehl
LANG="de_DE.UTF-8:de_DE:de"
Supported="de_DE.ISO-8859-15"
einsetze? Und jetzt ?

Padersuse
 
Ja, das ist unicode, d.h. utf-8 (= 8-bit Unicode Transformation Format). Deine htdig Einstellungen sind (so scheint es) korrekt. Dann ist es eben doch der Browser.

Firefox > View > Character Encoding > "Unicode (UTF-8)"

Konqueror > View > Set Encoding > Unicode > UTF-8

Opera > Encoding > Unicode > UTF-8

Gruss,
Roland
 
Hallo,
leider hat eine andere Einstellung des Browsers kein anderes Ergebnis gebracht. Ich habe aber auf dem Rechner, auf dem Opensuse 10.3 wie gewünscht läuft, den Quelltext einer html-Seite mit Umlauten mit Okteta geöffnet. Trotz systemweit gleicher Einstellungen wird hier "ö" als F6 dargestellt und "ü" als FC. Liegt es vielleicht daran, dass mein htdig-Skript eine etwas andere Formulierung der Einstellung des Zeichensatzes braucht ? Zur Wiederholung beinhaltet mein htdig-Skript folgende Zeilen :

LANG="de_DE.UTF-8:de_DE:de"
SUPPORTED="de_DE.ISO-8859-15"

Padersuse
 
Du hast ja verifiziert dass htdig unicode (utf-8) text sendet (Deine Message vom 5.10.2010, 13:35).

Die folgende Webseite ist unicode griechisch:

http://www.mikrosapoplous.gr/unicode.htm

Wenn Du hier keinen griechischen Text siehst, dann ist die Einstellung Deines Browsers nicht utf-8.

Gruss,
Roland
 
Hier ist noch ein Beispiel (ein griechisches Linux Forum?):

http://foss.ntua.gr/forum/index.php?topic=557.0

Roland
 
Also ich weiß ja ned, ob das jetzt unqualifiziert ist, weil so rechte Ahnung hab ich ja nicht davon... aber in meinen Augen widerspricht sich
Code:
LANG="de_DE.UTF-8:de_DE:de"
SUPPORTED="de_DE.ISO-8859-15"
Willst du jetzt UTF oder ISO? Und was steht im Meta-Tag der Seite? Ist da UTF-8 drin oder ISO?
 
Würdest Du bitte mitteilen ob die genannten griechischen Webseiten bei Dir korrekt dargestellt werden.

Roland
 
Guten Morgen,

@Dr. Glastonbury -- sorry ich hab nicht registriert dass Dein Beitrag von Dir ist -- habe padersuse als Author angenommen -- es war schon ziemlich spät :).

Ja, diese Specs sind mir auch suspekt, aber ich glaube (vielleicht täusche ich mich) dass sie nichts mit dem Problem (oder mit htdig) zu tun haben. padersuse hat nicht erklärt wie, oder wo, er diese Parameter anwendet. So wie ich verstehe sind diese jedenfalls keine Program-Optionen von htdig (oder rundig).

@padersuse -- Sehr gut dass die utf-8 Darstellung im Browser funtioniert. Nur verstehe nun wirklich nicht dass es von htdig gefundene utf-8 codierte Dokumente gibt welche (wie Du schreibst) nicht korrekt dargestellt werden!? Zum Beispiel, das Dokument welches Du mit Okteta inspiziert hast (Deine Message vom 5.10.2010, 13:35) ist utf-8 codiert, und trotzdem wird dieses im Browser falsch dargestellt? Kannst Du dies bitte verifizieren.

----------

Lass mich hier etwas erklären, so gut ich kann:

htdig ist (gemäss htdig Webseite) _NICHT_ utf-8 kompatibel. Wenn Du also Dokumente suchen willst welche z.B. das Wort "Löwe" enthalten, gibt es vier Möglichkeiten:

-1- Im Such-Wort "Löwe" ist das ö (o-umlaut) utf-8 codiert (also zwei Bytes für das ö).

-2- Im Such-Wort "Löwe" ist das ö (o-umlaut) nicht_utf-8 codiert, sondern z.B. latin-1 (also nur ein Byte für das ö).

-3- Das gesuchte Dokument enthält das Wort "Löwe" mit dem ö (o-umlaut) utf-8 codiert (also zwei Bytes für das ö).

-4- Das gesuchte Dokument enthält das Wort "Löwe" mit dem ö (o-umlaut) nicht_utf-8 codiert, sondern z.B. latin-1 (also nur ein Byte für das ö).

Resultat:

2 wird sicher 4 finden. Aber,
1 findet nicht 3, und auch nicht 4, und 2 finden nicht 3.

Von vier Möglichkeiten funktioniert also nur eine.

Fazit:

Das Such-Wort sollte keine Umlaute enthalten (egal welche Codierung).

Eine ganz andere Sache ist jedoch die Codierung der gefundenen Dokumente im allgemeinen (also nicht bez. Such-Wort wie oben beschrieben). Viele dieser Dokumente sind utf-8 codiert. Wenn z.B. das Such-Wort "Katze" gesucht wird, spielt es keine Rolle wie das Dokument codiert ist (weil "Katze" in latin-1 oder utf-8 codierung identisch ist). Daher ist es unumgänglich, dass utf-8 Dokumente richtig dargestellt werden -- was ja gemäss Deiner letzten Mitteilung der Fall ist!

----------

Also, wo/was ist das Problem?

Gruss,
Roland
 
Hallo Roland,

es ist eben nicht schön anzuschauen, wenn in einer internen Homepage, das Menü javasckriptbasiert auf der linken Seite, auf der rechten die einzelnen Seiten bzw. die Ergebnisliste von HTDIG, "Hyroglyphen" erscheinen, was auch den Lesefluß negativ beeinflusst. Ich habe bisher noch nicht verstanden, wie auf im Prinzip ähnlich strukturierten Systemen, Opensuse 10.3. und 11.3, diese Probleme auftauchen, obwohl systemweit gleiche Einstellungen vorliegen. Um diese Hyroglyphen zu umgehen, müssten in Zukunft alle Textdokumente ohnen Umlaute verfasst werden, zumindest wenn ich mit der Suchmaschine htdig arbeite, was wohl nicht im Sinne des Erfinders sein kann. Ich vermute, das es vielleicht doch an der 64-bit Version von Opensuse liegt. Ich werden mal auf einem anderen Rechner nochmal die 32-bit-Variante ausprobieren.
Padersuse
 
Hallo Padersuse,

Eine Mühsame Sache. Lass dann wissen was Deine Erfahrungen sind!

Viel Erfolg und lieber Gruss,
Roland
 
Hallo,

nachdem ich probeweise die 32bit Opensuse 11.3-Version installiert habe, ergibt sich leider auch kein anderes Ergebnis. Nach Eingabe eines Suchwortes in das Suchformular (ohne Umlaute) werden in der Ergebnisliste in Form eines Rankings Umlaute nicht richtig dargestellt. Unter Opensuse 10.3 funktioniert das auch nur, wenn dem rundig-Befehl der Parameter "LANG="de_DE.ISO-8859-1" vorher mitgegeben wird. Unter Opensuse 11.3 hat das leider keine Auswirkung. Ich werde berichten, wenn ich irgendwie weitergekommen bin.

Padersuse
 
Oben