Захват текста с веб-страницы
Вопрос
Я хотел бы написать программу, которая будет определять время остановки и соответственно обновлять мою личную веб-страницу.
Если бы я делал это вручную, я бы
<Ол>Результаты могут выглядеть следующим образом:
10: 16p, маршрут 154
10: 46p, маршрут 154
11: 32p, маршрут 154
Как только я уловил время и маршруты, я соответствующим образом обновлю свою веб-страницу. Р>
Понятия не имею, с чего начать. Я знаю, немного приседаю о веб-программировании, но могу написать немного C и Python. Какие темы / библиотеки я мог бы изучить?
Решение
Beautiful Soup - это библиотека Python, предназначенная для анализа интернет страницы. Между ним и urllib2 ( urllib.request в Python 3) вы должны быть в состоянии выяснить, что вам нужно.
Другие советы
То, о чем вы спрашиваете, называется " веб-очисткой. " Я уверен, что если вы поищете в Google, то найдете что-то, но основная идея заключается в том, что вы хотите открыть соединение с веб-сайтом, взломать HTML, проанализировать его и определить нужные куски.
В Python Wiki есть много полезного.
Поскольку вы пишете на C, вы можете захотеть проверить cURL ; в частности, взгляните на libcurl. Это здорово.
Вы можете использовать библиотеку механизации, доступную для Python. http://wwwsearch.sourceforge.net/mechanize / р>
Вы можете использовать Perl для выполнения своей задачи.
use strict;
use LWP;
my $browser = LWP::UserAgent->new;
my $responce = $browser->get("http://google.com");
print $responce->content;
Ваш объект ответа может сообщить вам, успешно ли он выполнен, а также вернуть содержимое страницы. Вы также можете использовать эту же библиотеку для публикации на странице.
Вот немного документации. http://metacpan.org/pod/LWP::UserAgent
Этот сайт не предлагает API для вас, чтобы иметь возможность получать необходимые данные. В этом случае вам необходимо проанализировать фактическую HTML-страницу, возвращаемую, например, запросом CURL.
Это называется веб-очисткой , и даже имеет собственную статью в Википедии где вы можете найти больше информации.
Кроме того, вы можете найти более подробную информацию в этом ТАКОЕ обсуждение .
Пока макет веб-страницы, которую вы пытаетесь «почистить», не меняется регулярно, вы сможете анализировать html с любым современным языком программирования.