LinkedIn Webスクレイピング
-
16-10-2019 - |
質問
私は最近発見しました 新しいRパッケージ LinkedIn APIに接続するため。残念ながら、LinkedIn APIはそもそもかなり限られているようです。たとえば、企業に関する基本的なデータのみを取得でき、これは個人に関するデータから切り離されています。特定の会社のすべての従業員に関するデータを取得したいと思います。 サイトで手動で ただし、APIでは不可能です。
import.io それがあれば完璧です LinkedIn Paginationを認識しました (ページの終わりを参照)。
LinkedInサイトの現在の形式に適用されるWebスクレイピングツールやテクニック、またはより柔軟な分析を実行するためにAPIを曲げる方法を知っている人はいますか?好ましくはRまたはWebベースであっていますが、他のアプローチには確かに開かれています。
解決
美しいスープは、ウェブクロールとスクレイピング用に特別に設計されていますが、RではなくPython用に書かれています。
他のヒント
スクラピー さまざまなサイトをより速く削り、コード構造を改善するのに役立つ優れたPythonライブラリです。すべてのサイトに、動的なJSコンテンツビルディングを使用できるため、クラシックツールで解析できるわけではありません。このタスクでは、使用する方が良いでしょう セレン (これはWebサイトのテストフレームワークですが、優れたWebスクレイピングツールでもあります)。 aもあります Pythonラッパー このライブラリで利用できます。 Googleでは、内部でセレンを使用するのに役立ついくつかのトリックを見つけることができます スクラピー そして、あなたのコードを明確にし、整理し、いくつかの素晴らしいツールを使用することができます スクラピー 図書館。
セレンは、古典的なツールよりもLinkedInにとってより良いスクレーパーになると思います。 JavaScriptと動的コンテンツがたくさんあります。また、アカウントで認証を作成し、利用可能なすべてのコンテンツをスクレイプする場合は、ような簡単なライブラリを使用してクラシック認証で多くの問題が発生します。 リクエスト また urllib.
好き 投資 関連するセクションを選択するためのSelectorGadget Chromeプラグインと組み合わせて。
私はResvedを使用し、小さなスクリプトを構築してフォーラムを介してページングしました。
- 「mのページn」オブジェクトを探します
- 抽出m
- ページ構造に基づいて、1からmのリンクのリストを作成します(例:www.sample.com/page1)
- リンクの完全なリストを介してスクレーパーを反復します
あなたがPythonを知っているなら、私もBeautifulSoupを使用します。 JavaScript/jQueryをコードする場合(そしてnode.jsに精通している場合)、チェックアウトすることができます coffeescript (をチェックしてください チュートリアル)私はすでに、Webページを削るために何度かそれを正常に使用しています。
BeautifulSoupはLinkedInで動作しません。スクラッピーはポリシーに違反します。 OctoparseはWindows専用です。別の方法はありますか?同様の人のアカウントのデータを抽出したいと思います。助けてください!
ここでは、成功した経験を共有しています。
Octoparseは素晴らしいです 無料のWebスクレイピングツール. 。 LinkedInデータを正常に削減するために使用しましたが、ここに詳細なビデオチュートリアルがあります。 LinkedInからデータを抽出します.