Ich stand vor dem Problem, dass ich mal wieder eine CSV bereinigen musste. In der Spalte „Beschreibungen“ waren extrem viele unnötige HTML Tags drin und ich wollte nur einen sauberen Text haben.
Wie entfernt man die HTML Tags? Ganz einfach, und zwar sucht ihr per Notepad++ einfach [<].*?> oder mit <[^>]*> und ersetzt das gegen ein Leerzeichen. Schon sind die ganzen Tags verschwunden.
Es kann sein, dass einige Leerzeichenstellen dann mit vielen Leerzeichenstellen entstehen. Diese müsst ihr dann auch über die Suche suchen und entfernen. Das ging sehr schnell bei mir. Man kann die whitespaces in Notepad++ auch anzeigen lassen, und zwar unter „Ansicht“ -> „nicht druckbare Zeichen“.
Mit etwas Mühe habe ich jetzt nur noch eine saubere Textbeschreibung.