Question

J'ai un système qui gère les équipements. Lorsque ces équipements sont défectueux, ils seront desservis. Imaginez mon apparence ensemble de données comme ceci:

ID
Type
# of times serviced

Exemple de données:

|ID| Type       | #serviced |
|1 | iphone     | 1         |
|2 | iphone     | 0         |
|3 | android    | 1         |
|4 | android    | 0         |
|5 | blackberry | 0         |

Ce que je veux faire est que je veux prédire « de tous les équipements qui ne sont pas desservies, celles qui sont susceptibles d'être desservis »? (Ie) identifier les équipements "à risque".

Le problème est que mes données de formation seront #serviced> 0. Tous # = 0 viabilisé ne sera pas gelé et ne semblent être des candidats valables à inclure dans la formation. (Ie) Quand il échoue, il sera desservi par conséquent, le nombre va augmenter.

  1. Est-ce un problème supervisé ou non supervisé? (Sous la direction parce que je l'ai entretenu et les étiquettes non desservies, sans supervision parce que je veux regrouper pas mal desservies avec viabilisés et il en identifier les équipements à risque)

  2. Quelles sont les données que je devrais inclure dans la formation?

Note:

L'exemple est évidemment simplifiée. En réalité, j'ai plus de fonctionnalités qui décrivent l'équipement.

Était-ce utile?

La solution

Vous devriez inclure des données lorsque le téléphone a été réparé pour créer un modèle de survie. Ces modèles sont couramment utilisés dans l'ingénierie de la fiabilité ainsi que l'efficacité du traitement. Pour l'ingénierie de fiabilité, il est très fréquent d'adapter vos données à une distribution de Weibull. Même les fabricants avions considèrent que le modèle soit fiable après l'étalonnage avec trois à cinq points de données. Je recommande vivement le package R package 'flexsurv'.

Vous ne pouvez pas utiliser linéaire typique ou par régression logistique depuis certains téléphones dans votre population laissera votre période d'observation sans jamais être entretenu. modèles de survie permettent ce genre d'information manquante (ce qui est appelé censurait).

En général, vous auriez les données suivantes

|ID| Type       | serviced  | # months_since_purchase
|1 | iphone     | 1         | 12
|2 | iphone     | 0         | 15
|3 | android    | 1         | 2
|4 | android    | 0         | 10
|5 | blackberry | 0         | 5.5

Avec ces données vous pouvez créer le modèle suivant dans R

require(survival)
model <- survfit(Surv(months_since_purchase, serviced) ~ strata(Type) +
 cluster(ID), data = phone_repairs)

Le survfit.formula Surv(months_since_purchase, serviced) ~ strata(Type) + cluster(ID) indique que months_since_purchase est le moment où une observation est fait, serviced est 1 si le téléphone a été réparé et 0 sinon, strata(Type) fera en sorte que vous créez un modèle différent de survie pour chaque téléphone, cluster(ID) fera en sorte que les événements relatifs à la même ID sont considérés en tant que cluster.

Vous pourriez étendre ce modèle avec les modèles communs tels que JM.

Autres conseils

Ce problème est d'apprentissage supervisé. Type est un facteur prédictif. classificateur #serviced est variable cible. Modèle est formé sur des échantillons que vous avez déjà mis. Meilleure estimation est que tout modèle ne sera pas avoir la capacité substantual prédictive. Type ne suffit pas.

Essayez d'inclure d'autres facteurs (prédicteurs) dans le modèle. Comme years_being_in_usage, equipment_model, have_been_in_service_before et ainsi de suite. Plus vous obtenez, le meilleur modèle, vous pouvez former.

Licencié sous: CC-BY-SA avec attribution
scroll top