Question

J'évalue un algorithme et j'aimerais utiliser des données artificielles.

L'algorithme fonctionne correctement, pour les ensembles de données artificielles unidimensionnels, comme on le voit dans cette réponse StackOverflow.

Je voudrais tester l'algorithme pour des ensembles de données avec plus d'une dimension et certaines caractéristiques (par ex.bruit, corrélation).Quelqu'un a-t-il déjà implémenté un "générateur d'ensemble de données artificielles" dans R?

Tout commentaire serait très apprécié.Merci!

Était-ce utile?

La solution

Les banc ML paquet dans R est une collection de fonctions pour générer des données de dimensionnalité et de structure variables à des fins d'analyse comparative.Il comprend à la fois des ensembles de données de régression et de classification.

Bien sûr, ces ensembles de données sont tous assez artificiels et peuvent donc ne pas vraiment refléter les performances de la "vraie vie", car ils peuvent ne pas refléter le type de structure auquel votre algorithme est destiné.Mais c'est au moins un point de départ.

Autres conseils

Vous pourriez utiliser wakefield package pour générer des ensembles de données aléatoires.

Il permet de créer facilement des trames de données, des séries chronologiques, d'ajuster les corrélations et même de visualiser les données générées, par ex.:

if (!require("pacman")) install.packages("pacman")
pacman::p_load_gh("trinker/wakefield")
pacman::p_load(dplyr, tidyr, ggplot2)

set.seed(10)

r_data_frame(n=100,
    id,
    dob,
    animal,
    grade, grade,
    death,
    dummy,
    grade_letter,
    gender,
    paragraph,
    sentence
) %>%
   r_na() %>%
   plot(palette = "Set1")

enter image description here

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top