LinkedIn web scraping

https://datascience.stackexchange.com/questions/5789

16-10-2019
|

Domanda

Recentemente ho scoperto un nuovo pacchetto R per il collegamento alle API LinkedIn. Purtroppo la LinkedIn API sembra piuttosto limitata per cominciare; per esempio, si può ottenere solo i dati di base sulle imprese, e questo si stacca dai dati sugli individui. Mi piacerebbe ottenere i dati su tutti i dipendenti di una determinata società, che si può fare manualmente sul sito ma non è possibile tramite l'API.

import.io sarebbe perfetto se riconosciuto l'impaginazione LinkedIn (vedi fine della pagina).

Qualcuno sa qualsiasi web strumenti o tecniche relative al modello corrente del sito LinkedIn, o modi di piegare l'API per effettuare analisi più flessibile raschiamento? Preferibilmente in R o web based, ma certamente aperto ad altri approcci.

Soluzione

Beautiful Soup è specificamente progettato per il web crawling e raschiando, ma è scritto per python e non R:

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

Altri suggerimenti

Scrapy è una grande libreria Python che può aiutare a raschiare diversi siti più veloce e rendere la vostra struttura del codice migliore. Non tutti i siti possono essere analizzati con strumenti classici, perché possono utilizzare dinamica dell'edificio contenuti JS. Per questo compito è meglio usare Selenio (Si tratta di un framework di test per i siti web, ma è anche un grande web strumento di raschiatura). C'è anche un Python involucro disponibile per questa libreria. In Google è possibile trovare alcuni trucchi che possono aiutare si utilizza selenio all'interno Scrapy e rendere il codice chiaro, organizzata, e si è possibile utilizzare alcuni ottimi strumenti per la libreria di Scrapy .

Credo che Selenio sarebbe un raschietto meglio per Linkedin di strumenti classici. Ci sono un sacco di javascript e contenuti dinamici. Inoltre, se si vuole fare l'autenticazione nel tuo account e raschiare tutti i contenuti disponibili, si otterrà un sacco di problemi con autenticazione classica utilizzando librerie semplici come richieste o urllib .

rvest in combinazione con il SelectorGadget Chrome plug-in per la selezione sezioni pertinenti.

ho usato rvest e costruito piccoli script per paginate attraverso forum da:

Cercare l'oggetto "Pagina N di M"
Estratto m
Sulla base della struttura della pagina, costruire una lista di link da 1 a m (per esempio www.sample.com/page1)
Itera il raschietto attraverso la lista completa di link

Vorrei anche andare con BeautifulSoup, se si sa di pitone. Nel caso in cui invece il codice JavaScript / jQuery (e si ha familiarità con node.js), si consiglia di cassa CoffeeScript ( Controlla la Tutorial ) ho già usato con successo in diverse occasioni per raschiare le pagine web.

lxml è un bel web rottamazione libreria in Python. Beautiful Soup è un wrapper sopra lxml. Così, lxml è più veloce di entrambe Scrapy e bella zuppa e ha una curva di apprendimento molto più facile.

Questa è un esempio di un raschietto che ho costruito con esso per un progetto personale, che può iterare su pagine web.

BeautifulSoup non funziona su LinkedIn. Scrappy viola politiche. Octoparse è solo per Windows. C'è un altro modo? Voglio estrarre i dati Persone simili per conto di una persona. Si prega di aiuto!

Ecco, io condividere la mia esperienza con successo.

Octoparse è un grande free web scraping strumento . L'ho usato per raschiare i dati Linkedin con successo, ed ecco un video dettagliato tutorial per estrarre i dati da Linkedin .

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange