Herzlich willkommen im SEO Forum der ABAKUS Internet Marketing GmbH
registrieren registriertes Mitglied
Da ich vermute, dass das Tool in PHP gecodet wurde würde ich bei solchen Aussagen vorsichtig sein.Webtrixx hat geschrieben:@SloMo: Umlaute,entities und tags sollten jetzt auch keine probleme mehr machen
Man muss natürlich die richtigen Funktionen nutzen und auf sowas wie utf8_encode() bzw. utf8_decode() verzichten. PHP kann das schon ganz gut, nur die meisten Entwickler nicht ;)Kristian hat geschrieben:Da ich vermute, dass das Tool in PHP gecodet wurde würde ich bei solchen Aussagen vorsichtig sein.
Ich stimme mit jein zu.SloMo hat geschrieben:Man muss natürlich die richtigen Funktionen nutzen und auf sowas wie utf8_encode() bzw. utf8_decode() verzichten. PHP kann das schon ganz gut, nur die meisten Entwickler nichtKristian hat geschrieben:Da ich vermute, dass das Tool in PHP gecodet wurde würde ich bei solchen Aussagen vorsichtig sein.
https://de3.php.net/manual/de/ref.mbstring.php
Bei Online-Dokumenten ist eigentlich das Hauptproblem, dass sehr häufig das falsche Encoding behauptet wird. Da steht dann UTF-8 im Header, der Content ist aber bis 255 in ISO-Codierung mit Einmischung von Entities usw... also richtige Moppelkotze die man dann so gut wie möglich entwirren muss. Ich finde das ist eine der größten Herausforderungen beim Scrapen.
Meine Herangehensweise ist immer, erstmal alle Dokumente in den UTF8-Raum zu verschieben. Danach kann man falls nötig auf die teuren MB-Funktionen zurückgreifen oder den Code komfortabel per preg_match(_all) zerpflücken. Mehr braucht es eigentlich nicht.
Hoffe es hilft.
Nö sorry Kristian, das ist Unfug. Natürlich muss man als Programmierer seine Datentypen im Blick haben. Wer auf UTF-8-Strings mit alten PHP-Funktionen wie strlen() etc. einprügelt, ist halt selbst schuld. Man kann es auch richtig machen und die Multibyte-Extenstion nutzen. Die ist auch bei jedem ordentlichen Hosting an Bord.Kristian hat geschrieben:Ansonsten, ich bleibe dabei, wenn du UTF-8 willst musst du eine Sprache nehmen, die es kann. PHP wird es vor 6.0 nicht können.
Fehlerresistenz ist alles, was da hilft. Witzig sind auch nicht-abgeschlossene Entities. Wenn Du plötzlich uuml und auml aus Top-Keywords hast, muss es nicht an Deinem Algo liegen. Dann hat vielleicht nur wieder ein Webbastler das Semikolon vergessen.Webtrixx hat geschrieben:Jedoch wie Kristian schon erwähnte, sind 2-3 Charakter dabei gewesen, die sich nicht behandeln liessen
Zumindest hier sind wir mal einer Meinung.SloMo hat geschrieben:Du kannst schwer alle Dummheiten ausbügeln, aber Du kannst auf Probleme im Encoding hinweisen. Ist ja auch ein gravierender Onpage-Fehler.
Hier sind wir nicht einer Meinung.SloMo hat geschrieben:Nö sorry Kristian, das ist Unfug. Natürlich muss man als Programmierer seine Datentypen im Blick haben. Wer auf UTF-8-Strings mit alten PHP-Funktionen wie strlen() etc. einprügelt, ist halt selbst schuld. Man kann es auch richtig machen und die Multibyte-Extenstion nutzen. Die ist auch bei jedem ordentlichen Hosting an Bord.Kristian hat geschrieben:Ansonsten, ich bleibe dabei, wenn du UTF-8 willst musst du eine Sprache nehmen, die es kann. PHP wird es vor 6.0 nicht können.
Ok. das sieht aus als sollte ich meine Hausaufgaben machen.SloMo hat geschrieben:PHP kann intern alles verarbeiten. Strings sind in PHP grundsätzlich nur Bytefolgen. Du kannst in einer PHP-Variablen alles ablegen.
Die Multibyte-Extension kann folgende Encodings verarbeiten:
https://www.php.net/manual/en/mbstring. ... odings.php
Darunter UTF-7/8/16/32 und eine Menge lokaler 8-Bit-Codepages. Mit UTF-8 kannst Du japanische, chinesische, bulgarische und deutsche Texte abbilden. Unicode ist generell völlig sprachagnostisch.
Nein, so was macht hier niemand in PHP.SloMo hat geschrieben: Ich vermute, Ihr hattet ein anderes Problem, z.B. keine Multibyte-Strings genutzt, Dokumente in exotischen (nicht unterstützten) Codepages erhalten und kaputtkonvertiert, oder einfach nur auf einen Font hereingefallen, der nicht alle Zeichen enthalten hat (dann siehst Du nur Kästchen oder Fragezeichen, jemand mit dem richtigen Font sieht es aber korrekt).