Domanda

Ho notato sui miei tracker che i bot stanno visitando MOLTO il mio sito. Devo cambiare o modificare il mio robots.txt o cambiare qualcosa? Non sei sicuro che vada bene, perché stanno indicizzando o cosa?

È stato utile?

Soluzione

  

Devo cambiare o modificare il mio robots.txt o cambiare qualcosa?

Dipende dal bot. Alcuni robot ignoreranno rispettosamente robots.txt. Abbiamo avuto un problema simile 18 mesi fa con il bot di Google AD perché il nostro cliente stava acquistando moltissime pubblicità. I robot di Google AD (come documentato) ignoreranno le esclusioni di caratteri jolly (*), ma ascoltano le ignorazioni esplicite.

Ricorda, i robot che rispettano robots.txt non eseguiranno la scansione del tuo sito. Ciò è indesiderabile se si desidera che abbiano accesso ai dati per l'indicizzazione.

Una soluzione migliore è quella di limitare o fornire contenuto statico ai robot.

  

Non sei sicuro che vada bene, perché stanno indicizzando o cosa?

Potrebbero essere indicizzazione / raschiatura / furto. Lo stesso davvero. Quello che penso tu voglia è limitare la loro elaborazione delle richieste http basata su UserAgents. La procedura dipende dal server Web e dal contenitore dell'app.

Come suggerito in altre risposte, se il bot è dannoso, dovrai trovare il modello UserAgent e inviare loro 403 divieti. Oppure, se i robot dannosi cambiano in modo dinamico le stringhe dell'agente utente, hai altre due opzioni:

  • Agenti utente nella white list - ad es. creare un filtro agente utente che accetta solo determinati agenti utente. Questo è molto imperfetto.
  • Esclusione IP: l'intestazione http conterrà l'IP di origine. Oppure, se ricevi DOS (attacco denial of service), allora hai problemi maggiori

Altri suggerimenti

Non credo davvero che cambiare il file robots.txt possa essere d'aiuto, perché solo i BUONI robot lo rispettano. Tutti gli altri lo ignorano e analizzano i tuoi contenuti come preferiscono. Personalmente uso http://www.codeplex.com/urlrewriter per sbarazzarmi dei robot indesiderati di rispondere con un messaggio proibito se vengono trovati.

I robot spam non si preoccupano di robots.txt. Puoi bloccarli con qualcosa come mod_security (che è un plug-in Apache piuttosto interessante a sé stante). Oppure potresti semplicemente ignorarli.

Potrebbe essere necessario utilizzare .htaccess per negare alcuni robot da rovinare con i tuoi registri. Vedi qui: http://spamhuntress.com/2006/02/ 13 / un'altra affamati-java-bot /

Avevo molti bot Java che eseguivano la scansione del mio sito, aggiungendo

SetEnvIfNoCase User-Agent ^ Java / 1. javabot = yes
SetEnvIfNoCase User-Agent ^ Java1. javabot = yes
Nega da env = javabot

li ha fatti fermare. Ora ottengono solo 403 volte e basta :)

Una volta ho lavorato per un cliente che aveva un certo numero di "confronto prezzi" robot che colpiscono il sito per tutto il tempo. Il problema era che le nostre risorse di backend erano scarse e costavano denaro per transazione.

Dopo aver provato a combattere alcuni di questi per qualche tempo, ma i robot hanno continuato a cambiare le loro caratteristiche riconoscibili. Abbiamo finito con la seguente strategia:

Per ogni sessione sul server abbiamo stabilito se l'utente stava in qualsiasi momento facendo clic troppo velocemente. Dopo un determinato numero di ripetizioni, imposteremmo "isRobot" flag su true e limita semplicemente la velocità di risposta all'interno di quella sessione aggiungendo sleep. Non l'abbiamo detto all'utente in alcun modo, poiché in quel caso avrebbe appena iniziato una nuova sessione.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top