Frage

Hallo, ich habe eine Liste der Facebook-Seite Urls

eg...
http://www.facebook.com/daftpunk
http://www.facebook.com/DavidGuetta
...

Was ist der beste Weg, um:

  • Überprüfen Sie, ob diese URLs sind wirklich für Facebook-Seiten und nicht Profile

  • Collect Details wie # Fans von diesen Seiten

Hilfe sehr geschätzt wird.

War es hilfreich?

Lösung

Ohne jeden Inhalt Schaben (die gegen Nutzungsbedingungen des Facebook ist sowieso):

  1. Extrahieren Sie den Benutzernamen Teil der URL d.h. das Bit nach der www.facebook.com /
  2. Führen Sie eine FQL Abfrage der Form select fan_count from page where username='michaeljackson'
  3. Wenn ein Ergebnis Rückkehr ist, wissen Sie, es ist ein Seite und nicht das Profil eines Benutzers.

Sehen Sie die Seite FQL Tabelle für andere Daten, die Sie im selben Aufruf abrufen kann.

Andere Tipps

urllib2 oder pyfacebook den Inhalt

BeautifulSoup oder lxml es zu analysieren

Mit dem re Modul (reguläre Ausdrücke) zu Extraktgehalt für Ihre Überprüfung und Datenerfassung

Die Anzahl der Fans ist in einem Tag mit der Klasse ‚FanManager‘. können Sie schöne Suppe, um den Inhalt diesen einen Tag, und reguläre Ausdrücke zu erhalten, die Daten aus dem String zu erhalten. (ex: 1.000.000 Fans) als int oder was auch immer Sie möchten

Um zu sehen, ob die Seite existiert, einige der Tags überprüfen, um zu sehen, ob Sie auf der Seite 404 sind.

Sie können mit scrapy oder BeautifulSoup den Inhalt zu kratzen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top