Frage

Ich versuche, einige Analysen mit einigen großen Datensätzen (z. B. 400K -Zeilen gegenüber 400 Spalten) mit R (z. B. mit neuronalen Netzwerken und Empfehlungssystemen) durchzuführen. Es dauert jedoch zu lange, um die Daten zu verarbeiten (mit riesigen Matrizen, z. B. 400K -Zeilen gegenüber 400.000 Spalten). Was sind einige kostenlose/billige Möglichkeiten, um die R -Leistung zu verbessern?

Ich akzeptiere Pakete oder Webdienstevorschläge (andere Optionen sind willkommen).

War es hilfreich?

Lösung

Obwohl Ihre Frage nicht sehr spezifisch ist, werde ich versuchen, Ihnen einige generische Lösungen zu geben. Es gibt ein paar Dinge, die Sie hier tun können:

  • Überprüfen Sie Sparsematrix aus dem Matrixpaket, wie von @sidhha erwähnt
  • Versuchen Sie, Ihr Modell parallel mit Paketen wie Schneefall auszuführen. Parallel. Überprüfen Sie dies Liste der Pakete auf Kran Dies kann Ihnen helfen, Ihr Modell im Multicore -Parallelmodus auszuführen.
  • Sie können es auch versuchen Datentabelle Paket. Es ist ziemlich phänomenal in der Geschwindigkeit.

Gute Lesevorgänge:

  1. 11 Tipps zum Umgang mit Big Data in R (und 1 schlechtes Wortspiel)
  2. Warum ist R langsam und wie kann man seine Leistung verbessern?

Andere Tipps

Da Sie erwähnen, dass Sie ein Empfehlungssystem erstellen, haben Sie glaube, dass Sie eine spärliche Matrix haben, an der Sie arbeiten. Prüfen Sparsematrix vom Matrixpaket. Dies sollte Ihnen bei der Speicherung Ihrer großartigen Matrix im Speicher helfen und Ihr Modell trainieren.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top