Вопрос

Я хотел бы написать программу, которая будет определять время остановки и соответственно обновлять мою личную веб-страницу.

Если бы я делал это вручную, я бы

<Ол>
  • Посетите www.calgarytransit.com
  • Введите номер остановки. т.е.) 9510
  • Нажмите кнопку "Следующая шина"
  • Результаты могут выглядеть следующим образом:

      

    10: 16p, маршрут 154
      10: 46p, маршрут 154
      11: 32p, маршрут 154

    Как только я уловил время и маршруты, я соответствующим образом обновлю свою веб-страницу.

    Понятия не имею, с чего начать. Я знаю, немного приседаю о веб-программировании, но могу написать немного C и Python. Какие темы / библиотеки я мог бы изучить?

    Это было полезно?

    Решение

    Beautiful Soup - это библиотека Python, предназначенная для анализа интернет страницы. Между ним и urllib2 ( urllib.request в Python 3) вы должны быть в состоянии выяснить, что вам нужно.

    Другие советы

    То, о чем вы спрашиваете, называется " веб-очисткой. " Я уверен, что если вы поищете в Google, то найдете что-то, но основная идея заключается в том, что вы хотите открыть соединение с веб-сайтом, взломать HTML, проанализировать его и определить нужные куски.

    В Python Wiki есть много полезного.

    Поскольку вы пишете на C, вы можете захотеть проверить cURL ; в частности, взгляните на libcurl. Это здорово.

    Вы можете использовать библиотеку механизации, доступную для Python. http://wwwsearch.sourceforge.net/mechanize /

    Вы можете использовать Perl для выполнения своей задачи.

    use strict;
    use LWP;
    
    my $browser = LWP::UserAgent->new;
    
    my $responce = $browser->get("http://google.com");
    print $responce->content;
    

    Ваш объект ответа может сообщить вам, успешно ли он выполнен, а также вернуть содержимое страницы. Вы также можете использовать эту же библиотеку для публикации на странице.

    Вот немного документации. http://metacpan.org/pod/LWP::UserAgent

    Этот сайт не предлагает API для вас, чтобы иметь возможность получать необходимые данные. В этом случае вам необходимо проанализировать фактическую HTML-страницу, возвращаемую, например, запросом CURL.

    Это называется веб-очисткой , и даже имеет собственную статью в Википедии где вы можете найти больше информации.

    Кроме того, вы можете найти более подробную информацию в этом ТАКОЕ обсуждение .

    Пока макет веб-страницы, которую вы пытаетесь «почистить», не меняется регулярно, вы сможете анализировать html с любым современным языком программирования.

    Лицензировано под: CC-BY-SA с атрибуция
    Не связан с StackOverflow
    scroll top