Вопрос

Я борюсь с автоматическим сбором данных PHP-скрипта с веб-сервера. Файлы, о которых идет речь содержат метеоданные и обновляются каждые 10 минут.Как ни странно, дата изменения файла на веб-сервере не меняется.

Просто открыть('http://...')-команда каждый час пытается получить самую свежую версию последнего файла в этом каталоге.Но регулярно у меня попадается версия до 4-х часовой давности.Это происходит на сервере Linux, который (как заверил меня мой системный администратор) не использует какой-либо прокси-сервер.

Реализует ли PHP собственный механизм кэширования?Или что еще здесь может мешать?

(Мой текущий обходной путь — получить файл через exec('wget --nocache...'), который работает.)

Это было полезно?

Решение

Поскольку вы получаете файл через HTTP, я предполагаю, что PHP будет учитывать все заголовки кэша, на которые отвечает сервер.

Очень простой и грязный способ избежать этого — добавить к каждому запросу некоторый случайный параметр get.

Другие советы

Вопрос касался наблюдаемого кэширования контента, к которому обращается fopen('http://...'), и автор задавался вопросом, реализует ли PHP собственный механизм кэширования?Другие ответы содержали некоторые предположения, но, конечно, самый простой способ выяснить это — проверить, посмотрев исходный код или, возможно, проще инструментировать системные вызовы, чтобы увидеть, что происходит?В системах Debian это тривиально сделать следующим образом:

$ echo "Hello World" > /var/www/xx.txt
$ strace -tt -o /tmp/strace  \
> php -r 'echo file_get_contents("http://localhost/xx.txt");'
Hello World

Я включил соответствующий фрагмент журнала трассировки ниже, но это показывает, что PHP RTS просто подключается к локальный хост: 80, отправляет «GET /xx.txt», получает ответ, содержащий заголовки и содержимое файла, который затем отражается в STDOUT.

В PHP RTS абсолютно не происходит кэширования на стороне клиента, и, поскольку здесь происходит прямой диалог HTTP-сокета, трудно представить, где на клиенте может происходить кэширование.У нас остается возможность кэширования на стороне сервера или промежуточного прокси.(Обратите внимание, что по умолчанию срок действия Access + 7 дней для текстовых файлов).

Извлечение файла журнала

00:15:41.887904 socket(PF_INET6, SOCK_STREAM, IPPROTO_IP) = 3
00:15:41.888029 fcntl(3, F_GETFL)       = 0x2 (flags O_RDWR)
00:15:41.888148 fcntl(3, F_SETFL, O_RDWR|O_NONBLOCK) = 0
00:15:41.888265 connect(3, {sa_family=AF_INET6, sin6_port=htons(80), inet_pton(AF_INET6, "::1", &sin6_addr), sin6_flowinfo=0, sin6_scope_id=0}, 28) = -1 EINPROGRESS (Operation now in progress)
00:15:41.888487 poll([{fd=3, events=POLLIN|POLLOUT|POLLERR|POLLHUP}], 1, 60000) = 1 ([{fd=3, revents=POLLOUT}])
00:15:41.888651 getsockopt(3, SOL_SOCKET, SO_ERROR, [0], [4]) = 0
00:15:41.888838 fcntl(3, F_SETFL, O_RDWR) = 0
00:15:41.888975 sendto(3, "GET /xx.txt HTTP/1.0\r\n", 22, MSG_DONTWAIT, NULL, 0) = 22
00:15:41.889172 sendto(3, "Host: localhost\r\n", 17, MSG_DONTWAIT, NULL, 0) = 17
00:15:41.889307 sendto(3, "\r\n", 2, MSG_DONTWAIT, NULL, 0) = 2
00:15:41.889437 poll([{fd=3, events=POLLIN|POLLPRI|POLLERR|POLLHUP}], 1, 0) = 0 (Timeout)
00:15:41.889544 poll([{fd=3, events=POLLIN|POLLERR|POLLHUP}], 1, 60000) = 1 ([{fd=3, revents=POLLIN}])
00:15:41.891066 recvfrom(3, "HTTP/1.1 200 OK\r\nDate: Wed, 15 F"..., 8192, MSG_DONTWAIT, NULL, NULL) = 285
00:15:41.891235 poll([{fd=3, events=POLLIN|POLLERR|POLLHUP}], 1, 60000) = 1 ([{fd=3, revents=POLLIN}])
00:15:41.908909 recvfrom(3, "", 8192, MSG_DONTWAIT, NULL, NULL) = 0
00:15:41.909016 poll([{fd=3, events=POLLIN|POLLERR|POLLHUP}], 1, 60000) = 1 ([{fd=3, revents=POLLIN}])
00:15:41.909108 recvfrom(3, "", 8192, MSG_DONTWAIT, NULL, NULL) = 0
00:15:41.909198 close(3)                = 0
00:15:41.909323 write(1, "Hello World\n", 12) = 12
00:15:41.909532 munmap(0x7ff3866c9000, 528384) = 0
00:15:41.909600 close(2)                = 0
00:15:41.909648 close(1)                = 0

Итак, если я правильно вас понимаю, часть проблемы может заключаться в том, что файл *.dat всегда имеет отметку времени 1:00 ночи?Есть ли у вас контроль над сервером, содержащим данные (http://www.iac.ethz.ch/php/chn_meteo_roof/)?Если да, то вам следует попытаться выяснить, почему данные всегда имеют одну и ту же метку времени.Я должен верить, что это установлено намеренно - ОС обновит временную метку при изменении файла, если вы не приложите все усилия, чтобы этого не произошло.Если вы не можете понять, почему для него установлено значение 1:00, вы можете хотя бы выполнить команду «прикосновение» к файлу, которая обновит его измененную временную метку.

Это все, конечно, при условии, что у вас есть доступ к серверу, предоставляющему файлы.

почему бы не попробовать использовать завиток, Я думаю, что это более подходящее применение.

возможно, это может решить вашу проблему (насколько я знаю, POST-запрос не может быть кэширован)

$opts = array('http' =>
  array(
    'method'  => 'POST',
    'content'=>''
  )
);
$context  = stream_context_create($opts);
$resource = fopen ('http://example.com/your-ulr', 'r', false, $context);

/* or you can use file_get_contents to retrieve all the file 
   $fileContent = file_get_contents('http://example.com/your-ulr', false, $context);
*/
Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top