質問

私は現在、顧客がデータ分析を使用して製品を購入する可能性を予測することを伴うパートタイムプロジェクトに取り組んでいます。私がインターンしている会社は、現在のすべての顧客とその属性を備えた顧客CSVファイルを私に与えてくれました。また、見込み客が追求する可能性があるかどうかを分類するための予測モデルを作成する必要があります。

しかし、彼らは私にすべての成功した顧客またはリードのリストをマーケティングの観点から与えてくれたので、K-MeansのようなモデルをPCA(およびK-fold Cross Validation?)でトレーニングし、結果を得ることができますか?モデル、たとえば10を適合させるためにモデルをトレーニングし、CSVに追加し、さらにテストする必要があります。

私はパンダを使用しています。別の問題は、多くの人口統計データがあることですが、私はそれを使用してそれを克服することができました get_dummies(). 。ただし、列の数は約10から47にエスカレートしました。

私はデータ分析の世界に入ったばかりです。したがって、私はどのパスをとるべきか、自分がしていることが正しいかどうかについて少し無知です。

正確な分析は、マーケティング用語で、予測リードスコアリング/分析と呼ばれます。

編集1

私は@honzabがしたことに従ったので、決定ツリーを取得しました。しかし、私は40列を持っていたので、それはこのように見えます

2 MBを超えるため、スクリーンショットを撮らなければなりませんでした。

明らかにそれは本当に大きいので、どういうわけか木を剪定する必要がありますが、パンダでそれを行う方法はわかりません。また、テキストファイルとして最良の特性を生成する方法や、データサイエンティストの助けなしに理解できるものはありますか?

編集2

私がする必要があることと非常によく似た質問を読みました。 RFMスコアリングインジケーターに基づく予測モデリング. 。その中に、論文へのリンクがあります([RFM分析を使用したデータマイニング] [3]) ルールベースの分類. 。理想的には、これは私がする必要があることであり、会社のニーズに最も適しています。

Python/Pandasでこれを行うことができるかどうかを知りたいです。または、決定ツリーを通過してルールを生成することは可能ですか?

編集3

別のウェブサイトを見つけました Pythonの決定ツリー再び、交差検証 それは使用します クロス検証ハイパーパラメーターの最適化 より良い解決策を取得するため。また、読み取り可能なコードを取得するためのpythonコードも含まれています。それは実行可能な解決策ですが、それは非常に複雑で、それがどのように機能するか理解できません。それは機能しますか?

PS私は、最大減少を減らすことにより、編集1から「本当に大きな意思決定ツリー」の問題を解決しました。私はまったく知りませんでした。

役に立ちましたか?

解決

まず、顧客に関する詳細情報があるかどうかを会社に尋ねます。あなたはあなたが10個のオリジナルの列を持っていると言いました、それは良い予測をするのに十分ではないかもしれません。同じことが行数にも当てはまります。通常、より多くのデータ、より良いモデル、一定の制限まで。

第二に、カテゴリ機能(あなたの場合の人口統計データ)をエンコードするのは良いことです。列の数の増加は、あなたのケースであなたを悩ませる必要はありません。

タスク自体については、はい、それは実行可能です。簡単に開始し、各機能の重要性を確認するだけで(後でPCAを使用します)、いくつかのモデルを選択してテストします。

また、列車の単純な決定ツリーを検討してください。あなたの結果は、ビジネス担当者が理解する方法で簡単に視覚化できます。 K-meansとしてブラックボックスメソッドに承認されています。

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top