ソーシャル ネットワーク クエリのべき乗則曲線フィッティング
-
25-09-2019 - |
質問
最近ツイッター 発表された 次の式にフォロワー数を入力すると、特定の Twitter ユーザーのランクを高精度で概算できます。
exp($a + $b * log(フォロワー数))
ここで、$a=21 および $b=-1.1
これは、特定のユーザーのフォロワー数でユーザーのリスト全体を並べ替えるよりも明らかに効率的です。
別のソーシャル サイトからの同様のデータ セットがある場合、そのデータ セットに適合する $a と $b の値をどのように導き出すことができるでしょうか?基本的に、分布がべき乗則であると仮定される周波数のリスト。
解決
次のモデルがあります。
y = exp(a + b.log(x))
これは以下と同等です:
log(y) = a + b.log(x)
したがって、データセットのログを取得すると、最終的に線形モデルが得られるため、次のように使用できます。 線形回帰 の最適値を決定するには a
そして b
.
しかし、これは私にはまったく無意味に思えます。特定のネットワーキング サイトがこの種の関係を使用してユーザー ランクを決定すると誰が言えるでしょうか?
他のヒント
きのMicrosoft Excel add-inを"Solver".も含まれていますがExcelのような設置されるデフォルトです。探して"追加"と"ソルバー"でエクセル版には、負荷します。
インストール後に、追加、次の操作を行います:
新しいワークシート.A列だけのidそれらのオプション)
カラムの数をイメージした新作スイーツ。
場合あなたの情報を入力してください順にソート、sortを用いてカラムB
カラムCけランキング(お知ら,1,2,3,等)
入値21細胞D1、-1.1細胞E1.もし、Twitterの値を$A$B.それこそが私たちの拠点値です。いる可能性が変化します。
細胞D2け式のようになります:=exp($E$1+$F$1*log(B2))
コピーを下記式でD2末のデータです。
細胞E2入式と比較する実際のランキングの結果により式(すなわち、分散).例えば、=sqrt(c2*c2+d2*d2).最近の実績と予想数値の値が0になります。
コピー上下セE2のデータです。
下のデータ、カラムE,和に重要です。例えば、ということかデータは、10,000値です。細胞E10001入=sum(e2:e10000).
のメニューからデータ、その"ソルバーの"メニューです。立地が非常にバージョンによってのご注意願います。利用の施設検索のための目標を求める.
指示に従ってしてくれてありがとうございますか現在)への利用のソルバーを追加します。当然のことながら、変化する細胞D1-E1、つくることを目的とすE10001の差異としてゼロに近づけが可能です。