CSVfox
Get the job done.
 Deutsch

±htmlstrip

Entfernt alle HTML -Markierungen aus Datenfeldern

Beschreibung

Beim Einlesen einer HTML -Tabelle in CSVfox können die Felddaten auch noch HTML -Markup enthalten.
Dies kann gewünscht sein, wenn die Felder später wieder auf einer Webseite angezeigt werden sollen. Wenn stattdessen das Markup entfernt werden soll, erledigt dieser Befehl dies.

Muster

±htmlstrip ±htmlstrip=y

Dies geschieht beim Lesen der Tabelle, bevor Spalten geändert oder Daten bearbeitet werden.

[Quelltext] Beispiel für den noch fehlenden Unterschied]

Funktion

Die Einstellung ±htmlstrip führt die folgenden Änderungen durch:

  • Alle (im Browser) unsichtbaren Zeilenumbrüche werden entfernt und <br>, <p> und <div> Tags werden stattdessen durch Zeilenumbrüche ersetzt.
  • Es ersetzt alle <a href=...>-Tags und <img src=...>-Tags durch ihre eingebettete URL, die in runde Klammern gesetzt wird.
  • Alle <ul>Listen werden durch ihre Listenelemente in separaten Zeilen ersetzt, denen ein Symbol oder ein Sternchen (*) vorangestellt wird.
  • Alle <ol>Listen werden durch ihre Listenelemente in separaten Zeilen ersetzt, denen ihre Ordnungszahl im vorgesehenen Format vorangestellt wird.
  • Alle eingebetteten <table> Tabellen werden durch ihre Zeilen in separaten Zeilen ersetzt, wobei jede Zeile aus durch Kommas getrennten Feldern besteht.
  • Schließlich wird das gesamte verbleibende HTML -Markup entfernt und alle HTML -Entitäten werden durch ihre reinen Textzeichen ersetzt (d. h.&Auml; wird durch Ä ersetzt und &lt; wird durch < ersetzt).

Da CSS nicht ausgewertet und verarbeitet werden kann, kann keine CSS-Formatierung (z. B. das dort definierte Listenformat) berücksichtigt werden. Nur die HTML -Attribute werden gegebenenfalls verwendet.

Anwendungsbeispiele

csvfox https://example.com/infile.csv +filetype=html +htmlstrip (...)
Liest die erste HTML -Tabelle von der Website und entfernt alle HTML -Daten.

Nur eine Teilmenge der Spalten entfernen

Muster

±htmlstrip[Spalte],[Spalte] ±htmlstrip[Spalte],[Spalte]=y
Under construction, coming soon