Vorverarbeitung und Aufnahme von Daten in Hadoop
-
23-12-2019 - |
Frage
Wir haben zwei Arten von Protokollen:
1) Sitzungsprotokoll: session_id, user_id, start_date_time, end_date_time
2) Ereignisprotokoll: session_id, date_time, x, y, z
Wir müssen nur das Ereignisprotokoll speichern, aber die Session_ID ersetzen möchten, die Session_ID mit seinem entsprechenden User_ID ersetzen möchte.Welche Technologien (d. H. FLUME?) Sollten wir die Daten in HDFS speichern?
danke!
Lösung
Ja Fummel kann verwendet werden, um Protokolldateien an HDFs zu verschieben.
, um Session_ID mit User_ID zu ersetzen - Sie könnten:
Tun Sie dies mit Shell-Skripts - und generieren Sie 'modifizierte Ereignisprotokolldatei' - dies wird aus dem Ruhel abholen.Dies wäre der einfachste Ansatz.
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow