±htmlstrip
Entfernt alle HTML -Markierungen aus Datenfeldern
Beschreibung
Beim Einlesen einer HTML -Tabelle in CSVfox können die Felddaten auch noch HTML -Markup enthalten.
Dies kann gewünscht sein, wenn die Felder später wieder auf einer Webseite angezeigt werden sollen. Wenn stattdessen das Markup entfernt werden soll, erledigt dieser Befehl dies.
Muster
±htmlstrip
±htmlstrip=y
Dies geschieht beim Lesen der Tabelle, bevor Spalten geändert oder Daten bearbeitet werden.
Funktion
Die Einstellung ±htmlstrip führt die folgenden Änderungen durch:
- Alle (im Browser) unsichtbaren Zeilenumbrüche werden entfernt und <br>, <p> und <div> Tags werden stattdessen durch Zeilenumbrüche ersetzt.
- Es ersetzt alle <a href=...>-Tags und <img src=...>-Tags durch ihre eingebettete URL, die in runde Klammern gesetzt wird.
- Alle <ul>Listen werden durch ihre Listenelemente in separaten Zeilen ersetzt, denen ein Symbol oder ein Sternchen (*) vorangestellt wird.
- Alle <ol>Listen werden durch ihre Listenelemente in separaten Zeilen ersetzt, denen ihre Ordnungszahl im vorgesehenen Format vorangestellt wird.
- Alle eingebetteten <table> Tabellen werden durch ihre Zeilen in separaten Zeilen ersetzt, wobei jede Zeile aus durch Kommas getrennten Feldern besteht.
- Schließlich wird das gesamte verbleibende HTML -Markup entfernt und alle HTML -Entitäten werden durch ihre reinen Textzeichen ersetzt (d. h.Ä wird durch Ä ersetzt und < wird durch < ersetzt).
Da CSS nicht ausgewertet und verarbeitet werden kann, kann keine CSS-Formatierung (z. B. das dort definierte Listenformat) berücksichtigt werden. Nur die HTML -Attribute werden gegebenenfalls verwendet.
Anwendungsbeispiele
- csvfox https://example.com/infile.csv +filetype=html +htmlstrip (...)
- Liest die erste HTML -Tabelle von der Website und entfernt alle HTML -Daten.
Nur eine Teilmenge der Spalten entfernen
Muster
±htmlstrip[Spalte],[Spalte]
±htmlstrip[Spalte],[Spalte]=y