Text einer HTML Webseite auslesen und entfernen der HTML-Tags
Um den reinen Text einer HTML Seite zu kommen, bedarf es einiger Funktionen. Ich habe hierzu einen Interessanten Blogeintrag gefunden. PHP bietet hierfür zwar schon ein paar Funktionen, die allerdings nicht immer den gewünschten Erfolg bringen. So werden zum Beispiel mit strip_tags alle HTML-Tags entfernt, jedoch kein Javascriptcode.
In der unteren Klasse habe ich alle Funktionen des Blogs zusammengefasst. Am Ende kommt hier wirklich nur der reine Text ohne HTML-Tags, Javascript, Sonderzeichen, Zeilenumbrüche, Leerzeilen, usw raus.
