Perché non posso strisciare siti Internet HTML bog-standard?

https://sharepoint.stackexchange.com/questions/13799

16-10-2019
|

Domanda

Questo viene in su nei registri di ricerca per indicizzazione:

Access is denied. Verify that either the Default Content Access Account has access to this repository, or add a crawl rule to crawl this repository. If the repository being crawled is a SharePoint repository, verify that the account you are using has "Full Read" permissions on the SharePoint Web Application being crawled.

Ora, questo accade per una serie di siti che hanno solo una cosa in comune, sono HTML statico.

Questo non è un problema di loopback, questo accade indipendentemente dal sito che puntarlo verso. Non dovrebbe essere un problema di contenuti conto-accesso perché, ehi, questi sono i siti rivolti al pubblico. Cosa sta succedendo?

Soluzione

HA! Inchiodato.

Ho dato un'occhiata ai log di una scatola di IIS nel nostro DMZ che stava mostrando la stessa attività. Si scopre in materia di accesso IIS anonimo è stato acceso (ovviamente), così come l'autenticazione integrata di Windows. Quindi, quello che sta succedendo è che il ragno sta provando ad usare le sue credenziali (che sono non va bene su questa macchina in quanto non è sul dominio) invece di richiedere le pagine in forma anonima. Se spengo l'autenticazione integrata è indexs OK. Quindi credo che mi limito a cambiare l'account di accesso al contenuto o qualcosa del genere per la sorgente di contenuti.

Altri suggerimenti

L'account di servizio dal vostro crawler non può avere alcun impostazioni proxy necessarie configurate.

Date un'occhiata nella vostra registri eventi ULS o applicazioni di Windows per i dettagli.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a sharepoint.stackexchange