±htmlstrip

Entfernt alle HTML -Markierungen aus Datenfeldern

Nur eine Teilmenge der Spalten entfernen

Beschreibung

Beim Einlesen einer HTML -Tabelle in CSVfox können die Felddaten auch noch HTML -Markup enthalten.
Dies kann gewünscht sein, wenn die Felder später wieder auf einer Webseite angezeigt werden sollen. Wenn stattdessen das Markup entfernt werden soll, erledigt dieser Befehl dies.

Muster

±htmlstrip ±htmlstrip=y

Dies wird für alle Tabellenzeilen und alle Spalten, für jedes Datenfeld, zum Zeitpunkt des Lesens der Tabelle und vor jeder Spaltenänderung oder Datenbearbeitung durchgeführt.

[Quelltext] Beispiel für den noch fehlenden Unterschied]

Funktion

Die Einstellung ±htmlstrip führt die folgenden Änderungen durch:

Alle (im Browser) unsichtbaren Zeilenumbrüche werden entfernt und <br>, <p> und <div> Tags werden durch Zeilenumbrüche ersetzt.
Es ersetzt alle <a href=...>-Tags und <img src=...>-Tags durch ihre eingebettete URL, die in runde Klammern gesetzt wird.
Alle <ul>Listen werden durch ihre Listenelemente in separaten Zeilen ersetzt, denen ein Symbol oder ein Sternchen (*) vorangestellt wird.
Alle <ol>Listen werden durch ihre Listenelemente in separaten Zeilen ersetzt, denen ihre Ordnungszahl im vorgesehenen Format vorangestellt wird.
Alle eingebetteten <table> Tabellen werden durch ihre Zeilen in separaten Zeilen ersetzt, wobei jede Zeile aus durch Kommas getrennten Feldern besteht.
Schließlich wird das gesamte verbleibende HTML -Markup entfernt und alle HTML -Entitäten werden durch ihre reinen Textzeichen ersetzt (d. h.Ä wird durch Ä ersetzt und < wird durch < ersetzt).

Da Skripte (z. B. JavaScript) oder CSS nicht ausgewertet und verarbeitet werden können, können keine dynamischen DOM-Objekte oder CSS-Formatierungen berücksichtigt werden. Nur einige HTML -Attribute werden verwendet, wo dies angemessen ist.

Anwendungsbeispiele

csvfox https://example.com/infile.csv +filetype=html +htmlstrip (...): Liest die erste HTML -Tabelle von der Website und entfernt alle HTML -Daten.

Nur eine Teilmenge der Spalten entfernen

Muster

±htmlstrip[Spalte],[Spalte] ±htmlstrip[Spalte],[Spalte]=y