Frage

Ich arbeite an einem Regressionsproblem, bei dem das Ziel darin besteht, historische Verkehrsvolumina in einem Transportnetz abzuschätzen. Ich habe Verkehrszähler an 100 Standorten, sodass ein Modell die Beziehung zwischen Verkehrsvolumen und einer Reihe von erklärenden Variablen (z. B. Geschwindigkeiten, Straßeneigenschaften, Wetter) lernen kann. Danach kann ich das Modell anwenden, um historische Verkehrsvolumina an Orten zu schätzen, an denen ich keine Verkehrszähler habe.

Mein neuronales Netzwerk funktioniert einigermaßen gut, aber ich frage mich, ob es Modelle für maschinelles Lernen gibt, die die Topologie meines Straßennetzes ausdrücklich erklären könnten, und die Tatsache, dass der Verkehr auf benachbarten Straßenverbindungen stark korreliert ist. Ich könnte "Verkehrsvolumen am nächsten Verkehrschalter" als Eingabevariable zu meiner Ann hinzufügen, aber ich frage mich, ob es einen intelligenteren Ansatz gibt.

In dieser Hinsicht bin ich auf Bayes'sche Netzwerke gestoßen, die die Netzwerk -Topologie und -Korrelation berücksichtigen können. Sie scheinen jedoch für Fälle anwendbar zu sein, in denen wir an 100 Standorten Sensoren haben, und wir möchten den Verkehrszustand (an diesen 100 Standorten) zu einem zukünftigen Zeitpunkt vorhersagen. Andererseits habe ich Messungen an 100 Standorten und möchte den Verkehr an einem anderen Ort zum gleichen Zeitpunkt schätzen.

Jeder Vorschlag wird sehr geschätzt!

War es hilfreich?

Lösung

Aus dem verwandten Bereich der Messung und Vorhersage der Netzwerksicherheit würde ich nachdrücklich vorschlagen, eine Zeitreihenprognose auszuprobieren. Ich gehe davon aus, dass Ihre Daten zeitstempelbasiert sind (Netzwerkstauswerte, in einem Intervall abgetastet? Wenn nicht zur zweiten Idee springen)

1. Idee:Ich würde das Konzept der Ablagerung der 100 Messungen in 1 Datum ausleihen. Also statt:

T1+Delta1, Standort1, Messurement1

T1+Delta2, Standort2, Messurement2

T1+Delta3, Standort3, Messurement3

In etwas falten:

T1-Bucketed, Loc1, Mess1, Loc2, Mess2, Loc3, Mess3.

Dies würde dem Modell helfen, die Beziehung zwischen den verschiedenen Messungen zu "erfassen", wobei der Schwerpunkt auf der Zeitachse liegt

2. IdeeIn jede Messreihe die engsten Messungen durch Topologie (oder sogar die gesamten 100 Nachbarn) in:

Mess, Topol-1-Mess, Topol-1-Dist, Topol-1-Other, Topol-2-Mess, Topol-2-Dist, Topol-2-Other, ..

Dies würde dem Modell helfen, die Beziehung zwischen einer spezifischen Messung und seinen Nachbarschaftsmessungen zu "erfassen", wobei der Schwerpunkt auf den Topologie -Merkmalen jeder Messung liegt

Bitte lassen Sie uns wissen, ob das half :)

Andere Tipps

Ein einfacher Ansatz wäre zu verwenden K-Nearest-Nachbarn, wo die Entfernungsmetrik in Ihrem Fall "die Anzahl der Straßenverbindungen weg" ist. Die Technik ist in den Kapiteln 2 und 13 von beschrieben Die Elemente des statistischen Lernens. Grundsätzlich würde es das durchschnittliche Verkehrsvolumen für die dauern k Nächste Verkehrsknoten. Es gibt im Wesentlichen keine Schulung, außer der Kreuzvalidierung und -abstimmung, um das Optimal zu finden k. Der Kompromiss ist, dass es zum Zeitpunkt der Abfrage rechnerisch schwer ist (wenn Sie eine Vorhersage machen möchten).

Randnotiz: Wenn Sie noch nicht sind, empfehle ich dringend, eine Datenbank wie zu verwenden Neo4j Um die Linkabstand zu verlangen. Sie können das KNN-Modell wahrscheinlich nur 3-4 Codezeilen mithilfe einer Diagrammdatenbank codieren.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top