ソーシャルネットワーククエリのべき乗則曲線フィッティング

質問

最近ツイッター発表された次の式にフォロワー数を入力すると、特定の Twitter ユーザーのランクを高精度で概算できます。

exp($a + $b * log(フォロワー数))

ここで、$a=21 および $b=-1.1

これは、特定のユーザーのフォロワー数でユーザーのリスト全体を並べ替えるよりも明らかに効率的です。

別のソーシャルサイトからの同様のデータセットがある場合、そのデータセットに適合する $a と $b の値をどのように導き出すことができるでしょうか?基本的に、分布がべき乗則であると仮定される周波数のリスト。

解決

次のモデルがあります。

y = exp(a + b.log(x))

これは以下と同等です:

log(y) = a + b.log(x)

したがって、データセットのログを取得すると、最終的に線形モデルが得られるため、次のように使用できます。線形回帰の最適値を決定するには a そして b.

しかし、これは私にはまったく無意味に思えます。特定のネットワーキングサイトがこの種の関係を使用してユーザーランクを決定すると誰が言えるでしょうか?

他のヒント

きのMicrosoft Excel add-inを"Solver".も含まれていますがExcelのような設置されるデフォルトです。探して"追加"と"ソルバー"でエクセル版には、負荷します。

インストール後に、追加、次の操作を行います:

新しいワークシート.A列だけのidそれらのオプション）
カラムの数をイメージした新作スイーツ。
場合あなたの情報を入力してください順にソート、sortを用いてカラムB
カラムCけランキング(お知ら,1,2,3,等)
入値21細胞D1、-1.1細胞E1.もし、Twitterの値を$A$B.それこそが私たちの拠点値です。いる可能性が変化します。
細胞D2け式のようになります:=exp($E$1+$F$1*log(B2))
コピーを下記式でD2末のデータです。
細胞E2入式と比較する実際のランキングの結果により式（すなわち、分散).例えば、=sqrt(c2*c2+d2*d2).最近の実績と予想数値の値が0になります。
コピー上下セE2のデータです。
下のデータ、カラムE,和に重要です。例えば、ということかデータは、10,000値です。細胞E10001入=sum(e2:e10000).
のメニューからデータ、その"ソルバーの"メニューです。立地が非常にバージョンによってのご注意願います。利用の施設検索のための目標を求める.
指示に従ってしてくれてありがとうございますか現在）への利用のソルバーを追加します。当然のことながら、変化する細胞D1-E1、つくることを目的とすE10001の差異としてゼロに近づけが可能です。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow

ソーシャル ネットワーク クエリのべき乗則曲線フィッティング