LinkedIn Webスクレイピング

https://datascience.stackexchange.com/questions/5789

16-10-2019
|

質問

私は最近発見しました新しいRパッケージ LinkedIn APIに接続するため。残念ながら、LinkedIn APIはそもそもかなり限られているようです。たとえば、企業に関する基本的なデータのみを取得でき、これは個人に関するデータから切り離されています。特定の会社のすべての従業員に関するデータを取得したいと思います。サイトで手動でただし、APIでは不可能です。

import.io それがあれば完璧です LinkedIn Paginationを認識しました（ページの終わりを参照）。

LinkedInサイトの現在の形式に適用されるWebスクレイピングツールやテクニック、またはより柔軟な分析を実行するためにAPIを曲げる方法を知っている人はいますか？好ましくはRまたはWebベースであっていますが、他のアプローチには確かに開かれています。

解決

美しいスープは、ウェブクロールとスクレイピング用に特別に設計されていますが、RではなくPython用に書かれています。

http://www.crummy.com/software/beautifulsoup/bs4/doc/

他のヒント

スクラピーさまざまなサイトをより速く削り、コード構造を改善するのに役立つ優れたPythonライブラリです。すべてのサイトに、動的なJSコンテンツビルディングを使用できるため、クラシックツールで解析できるわけではありません。このタスクでは、使用する方が良いでしょうセレン（これはWebサイトのテストフレームワークですが、優れたWebスクレイピングツールでもあります）。 aもあります Pythonラッパーこのライブラリで利用できます。 Googleでは、内部でセレンを使用するのに役立ついくつかのトリックを見つけることができますスクラピーそして、あなたのコードを明確にし、整理し、いくつかの素晴らしいツールを使用することができますスクラピー図書館。

セレンは、古典的なツールよりもLinkedInにとってより良いスクレーパーになると思います。 JavaScriptと動的コンテンツがたくさんあります。また、アカウントで認証を作成し、利用可能なすべてのコンテンツをスクレイプする場合は、ような簡単なライブラリを使用してクラシック認証で多くの問題が発生します。リクエストまた urllib.

好き投資関連するセクションを選択するためのSelectorGadget Chromeプラグインと組み合わせて。

私はResvedを使用し、小さなスクリプトを構築してフォーラムを介してページングしました。

「mのページn」オブジェクトを探します
抽出m
ページ構造に基づいて、1からmのリンクのリストを作成します（例：www.sample.com/page1）
リンクの完全なリストを介してスクレーパーを反復します

あなたがPythonを知っているなら、私もBeautifulSoupを使用します。 JavaScript/jQueryをコードする場合（そしてnode.jsに精通している場合）、チェックアウトすることができます coffeescript （をチェックしてくださいチュートリアル）私はすでに、Webページを削るために何度かそれを正常に使用しています。

LXML Pythonの素敵なWebスクラッピングライブラリです。美しいスープはLXMLのラッパーです。したがって、LXMLはスクラピーと美しいスープの両方よりも速く、学習曲線がはるかに簡単です。

これ私が個人的なプロジェクトのために構築したスクレーパーの例であり、Webページを繰り返すことができます。

BeautifulSoupはLinkedInで動作しません。スクラッピーはポリシーに違反します。 OctoparseはWindows専用です。別の方法はありますか？同様の人のアカウントのデータを抽出したいと思います。助けてください！

ここでは、成功した経験を共有しています。

Octoparseは素晴らしいです無料のWebスクレイピングツール. 。 LinkedInデータを正常に削減するために使用しましたが、ここに詳細なビデオチュートリアルがあります。 LinkedInからデータを抽出します.

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange