±htmlstrip
Entfernt alle HTML -Markierungen aus Datenfeldern
Beschreibung
Beim Einlesen einer HTML -Tabelle in CSVfox können die Felddaten auch noch HTML -Markup enthalten.
Dies kann gewünscht sein, wenn die Felder später wieder auf einer Webseite angezeigt werden sollen. Wenn stattdessen das Markup entfernt werden soll, erledigt dieser Befehl dies.
Muster
Dies wird für alle Tabellenzeilen und alle Spalten, für jedes Datenfeld, zum Zeitpunkt des Lesens der Tabelle und vor jeder Spaltenänderung oder Datenbearbeitung durchgeführt.
Funktion
Die Einstellung ±htmlstrip führt die folgenden Änderungen durch:
- Alle (im Browser) unsichtbaren Zeilenumbrüche werden entfernt und <br>, <p> und <div> Tags werden durch Zeilenumbrüche ersetzt.
- Es ersetzt alle <a href=...>-Tags und <img src=...>-Tags durch ihre eingebettete URL, die in runde Klammern gesetzt wird.
- Alle <ul>Listen werden durch ihre Listenelemente in separaten Zeilen ersetzt, denen ein Symbol oder ein Sternchen (*) vorangestellt wird.
- Alle <ol>Listen werden durch ihre Listenelemente in separaten Zeilen ersetzt, denen ihre Ordnungszahl im vorgesehenen Format vorangestellt wird.
- Alle eingebetteten <table> Tabellen werden durch ihre Zeilen in separaten Zeilen ersetzt, wobei jede Zeile aus durch Kommas getrennten Feldern besteht.
- Schließlich wird das gesamte verbleibende HTML -Markup entfernt und alle HTML -Entitäten werden durch ihre reinen Textzeichen ersetzt (d. h.Ä wird durch Ä ersetzt und < wird durch < ersetzt).
Da Skripte (z. B. JavaScript) oder CSS nicht ausgewertet und verarbeitet werden können, können keine dynamischen DOM-Objekte oder CSS-Formatierungen berücksichtigt werden. Nur einige HTML -Attribute werden verwendet, wo dies angemessen ist.
Anwendungsbeispiele
- csvfox https://example.com/infile.csv +filetype=html +htmlstrip (...)
- Liest die erste HTML -Tabelle von der Website und entfernt alle HTML -Daten.