Regex per semplificare Yahoo risposte ad alimentare Titolo
Domanda
Sto cercando di analizzare il feed Yahoo Answers - http://answers.yahoo.com/rss / allq Il problema è che i titoli hanno
[categoria]: Domanda aperta:
in ogni titolo che io non voglio ... voglio scrivere un regexp per rimuovere questo ...
tutto ciò che possiamo fare per rimuovere tutte le lettere in partenza [e il primo:. Dovrebbe farlo
c'è uno spazio dopo il :
anche, abbiamo bisogno di rimuovere anche questo.
Grazie per questo in anticipo, ho anche provare a trovare una soluzione io stesso.
Soluzione
Hai pensato di usare di Yahoo YQL servizio per analizzare questo feed (o altre pagine web)?
Hanno già query di esempio per voi per ottenere a Yahoo Risposte dati:
-
answers.getbycategory: http://developer.yahoo.com/yql/console/#h= selezionare% 20 *% 20from% 20answers.getbycategory% 20where% 20category_id% 3D2115500137% 20and% 20type% 3D% 22resolved% 22
-
answers.getbyuser: http://developer.yahoo.com/yql/console/#h= selezionare% 20 *% 20from% 20answers.getbyuser% 20where% 20user_id% 3D% 22YbaMGtHFaa% 22
-
answers.getquestion: http://developer.yahoo.com/yql/console/#h= selezionare% 20 *% 20from% 20answers.getquestion% 20where% 20question_id% 3D% 2220090526102023AAkRbch% 22
-
answers.search: http://developer.yahoo.com/yql/console/#h= selezionare% 20 *% 20from% 20answers.search% 20where% 20query% 3D% 22cars% 22% 20and% 20category_id% 3D2115500137% 20and% 20type% 3D% 22resolved% 22
(Solo un condizionatore nel caso in cui non erano a conoscenza di questo comodo servizio. Io lo uso al posto di screen scraping con RegEx di.)
Altri suggerimenti
la seguente espressione regolare dovrebbe fare il lavoro:
^\[.*?:
Utilizzo campione in C #:
string resultString = Regex.Replace(subjectString, @"^\[.*?: ", "");
Ciò che fa è iniziare con una staffa [
e prendere tutti i caratteri fino a che non corrisponde a un :
e prendere lo spazio follwing.
Spero che questo aiuti, Tom.
Grazie @ cmptrgeekken per indicare la cosa non avido fuori!