Scrapeing Web Scraping

https://datascience.stackexchange.com/questions/5789

16-10-2019
|

Вопрос

Я недавно обнаружил Новый пакет R. Для подключения к API LinkedIn. К сожалению, API LinkedIn кажется довольно ограниченным с самого начала; Например, вы можете получить только основные данные о компаниях, и это отделено от данных о отдельных лицах. Я хотел бы получить данные обо всех сотрудниках данной компании, что вы можете сделать вручную на сайте но невозможно через API.

import.io было бы идеально, если бы это распознал ликовую страницу (См. Конец страницы).

Кто -нибудь знает какие -либо инструменты или методы сетевого очистки, применимые к текущему формату сайта LinkedIn, или способы изгиба API для проведения более гибкого анализа? Предпочтительно в R или в Интернете, но, безусловно, открыт для других подходов.

Решение

Красивый суп специально разработан для ползания и соскоба, но написан для Python, а не R:

http://www.crummy.com/software/beautifulsoup/bs4/doc/

Другие советы

Скрара Это отличная библиотека Python, которая может помочь вам быстрее соскребить различные сайты и улучшить структуру вашей кода. Не все сайты могут быть проанализированы классическими инструментами, потому что они могут использовать динамическое строительство контента JS. Для этой задачи лучше использовать Селен (Это тестовая структура для веб -сайтов, но это также отличный инструмент для очистки Интернета). Есть также Python Purper Доступно для этой библиотеки. В Google вы можете найти несколько трюков, которые могут помочь вам использовать Selenium внутри Скрара и сделать ваш код чистым, организованным, и вы можете использовать несколько отличных инструментов для Скрара библиотека.

Я думаю, что Selenium будет лучшим скребком для LinkedIn, чем классические инструменты. Есть много JavaScript и динамического контента. Кроме того, если вы хотите сделать аутентификацию в своей учетной записи и соскрести весь доступный контент, вы получите много проблем с классической аутентификацией, используя простые библиотеки, такие как Запросы или же урллиб.

Мне нравится rvest В сочетании с плагином Chrome SelectorGadget для выбора соответствующих разделов.

Я использовал RVEST и построил небольшие сценарии, чтобы нанести на страницу на форумах:

Ищите объект «Страница N of M»
Экстракт m
На основе структуры страницы постройте список ссылок от 1 до M (например, www.sample.com/page1)
Относит скребок через полный список ссылок

Я бы также пошел с BeautifulSoup, если бы вы знаете Python. Если вы скорее кодируете JavaScript/jQuery (и вы знакомы с Node.js), вы можете заказать заказа CoffeeScript (Проверьте РуководствоЯ уже несколько раз использовал его успешно для соскоба веб -страниц.

LXML Хорошая библиотека для паутины в Python. Красивый суп - это обертка над LXML. Таким образом, LXML быстрее, чем скрара и красивый суп, и имеет гораздо более легкую кривую обучения.

Этот является примером скребка, который я создал с ним для личного проекта, который может итерации на веб -страницах.

BeautifulSoup не работает на LinkedIn. Scrappy нарушает политику. Осьминог предназначен только для Windows. Есть другой способ? Я хочу извлечь данные аналогичных людей для учетной записи человека. Пожалуйста помоги!

Здесь я делюсь своим успешным опытом.

Осьминога - отличный БЕСПЛАТНЫЙ инструмент для соскоб. Анкет Я использовал его, чтобы успешно скрепить данные LinkedIn, и вот подробное видеоурок Извлечь данные из LinkedIn.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange