Scrapy SgmlLinkExtractor вопрос

https://stackoverflow.com/questions/1809817

05-07-2019
|

Вопрос

Я пытаюсь заставить работать SgmlLinkExtractor.

Это подпись:

SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None)

Я просто использую allow = ()

Итак, я вхожу

rules = (Rule(SgmlLinkExtractor(allow=("/aadler/", )), callback='parse'),)

Итак, начальный URL-адрес 'http://www.whitecase.com/jacevedo/' , и я ввожу allow = ('/ aadler',) и ожидать, что '/ aadler /' также будет сканироваться. Но вместо этого паук сканирует исходный URL, а затем закрывается:

[wcase] INFO: Domain opened
[wcase] DEBUG: Crawled </jacevedo/> (referer: <None>)
[wcase] INFO: Passed NuItem(school=[u'JD, ', u'Columbia Law School, Harlan Fiske Stone Scholar, Parker School Recognition of Achievement in International and Foreign Law, ', u'2005'])
[wcase] INFO: Closing domain (finished)

Что я здесь не так делаю?

Есть здесь кто-нибудь, кто успешно использовал Scrapy и может помочь мне покончить с этим пауком?

Спасибо за помощь.

Я добавляю код для паука ниже:

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from Nu.items import NuItem
from urls import u

class NuSpider(CrawlSpider):
    domain_name = "wcase"
    start_urls = ['xxxxxx/jacevedo/']

    rules = (Rule(SgmlLinkExtractor(allow=("/aadler/", )), callback='parse'),)

    def parse(self, response):
        hxs = HtmlXPathSelector(response)

        item = NuItem()
        item['school'] = hxs.select('//td[@class="mainColumnTDa"]').re('(?<=(JD,\s))(.*?)(\d+)')
        return item

SPIDER = NuSpider()

Примечание: SO не позволит мне публиковать более 1 URL, поэтому при необходимости замените исходный URL. Извините за это.

Решение

Вы переопределяете "parse" Метод это появляется. " parse " ;, это закрытый метод в CrawlSpider, используемый для перехода по ссылкам.

Другие советы

если вы проверяете документацию на предупреждение " четко написано

" При написании правил паука для обхода избегайте использования синтаксического анализа в качестве обратного вызова, поскольку паук обхода использует сам метод синтаксического анализа для реализации своей логики. Поэтому, если вы переопределите метод разбора, паук сканирования больше не будет работать. & Quot;

URL для проверки

allow = (r '/ aadler /', ...

Вам не хватает запятой после первого элемента для " rules " быть кортежем.

rules = (Rule(SgmlLinkExtractor(allow=('/careers/n.\w+', )), callback='parse', follow=True),)

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow