Как соотносятся различные показатели посещаемости?

https://stackoverflow.com/questions/1557953

21-09-2019
|

Вопрос

Гипотетически, tets говорят, что кто-то говорит вам ожидать X (например, 100 000 или около того) уникальных посетителей в день в результате успешной маркетинговой кампании.

Как это соотносится с пиковыми запросами в секунду?Пик одновременных запросов?

Очевидно, что это зависит от многих факторов, таких как типичное количество страниц, запрашиваемых за сеанс пользователя, или время загрузки типичной страницы, или многие другие.Это другие переменные Y, Z, V и т.д.

Я ищу какую-то функцию или даже просто соотношение для оценки этих показателей.Очевидно, для разработки стратегии масштабируемости производственной среды.

Это может произойти на производственной площадке, над которой я работаю, очень скоро.Любая помощь в их оценке полезна.

Решение

Редактировать:(следующее указание на то, что у нас практически нет предварительной статистики о трафике)
Поэтому мы можем забыть об основной части плана, изложенного ниже, и непосредственно переходите к части "выполнить некоторые оценки".Проблема в том, что нам нужно будет заполнить параметры из модели, используя обоснованные предположения (или просто дикие догадки).Ниже приведена простая модель, для которой вы можете настроить параметры, основываясь на вашем понимании ситуации.

Модель

Допущения:
а) Распределение запросов на страницу происходит следующим образом: кривая нормального распределения.
б) Рассмотрение вопроса о короткий период пикового трафика, скажем, за 30 минут, количество можно считать, что запросы распределены равномерно.
Это может быть [несколько] неверно:например, у нас могла бы получиться двойная кривая, если рекламная кампания нацелена на несколько географических регионов, скажем, на рынки США и Азии.Кроме того, кривая может следовать другому распределению.Однако эти предположения являются обоснованными по следующим причинам:

это было бы ошибкой, если вообще имело бы место, с "пессимистической стороны", т.е.завышение пиковых значений трафика.Этот "пессимистичный" прогноз может быть дополнительно принят при использовании немного меньшего значения отклонения std.(Мы предлагаем использовать 2-3 часа, что позволит распределить 68% и 95% трафика за период в 4 и 8 часов (2 часа std dev) и 6 и 12 часов (3 часа stddev) соответственно.
это упрощает расчеты ;-)
ожидается, что она в целом будет соответствовать реальности.

Параметры:

V = ожидаемое количество отдельных посетителей за 24-часовой период .
Ppv = среднее количество запросов на страницу, связанных с данным сеансом посетителя.(вы можете рассмотреть возможность использования формулы дважды, один для ответов "статического" типа, а другой для динамических ответов, т.е.когда приложение тратит время на подготовку ответа для данного пользователя / контекста)
sig = стандартное отклонение в минутах
R = количество запросов в минуту в пиковое время.

Формула:

   R = (V * Ppv * 0.0796)/(2 * sig / 10)

Это происходит потому, что с помощью нормальное распределение, и в соответствии с таблица z-баллов, примерно 3,98% выборок попадают в пределах 1/10 от стандартной разработки, по ту или иную сторону от среднего значения (самого пика), следовательно, получаем почти 8 процентов выборок в пределах одной десятой от стандартной разработки с каждой стороны, и, исходя из предположения об относительно равномерном распределении в течение этого периода, мы просто делим на количество минут.

Пример:V = 75 000 Ppv = 12 и sig = 150 минут (т.е. предполагается, что 68% трафика поступает за 5 часов, 95% - за 10 часов, 5% - за остальные 14 часов дня).R = 2388 запросов в минуту, т.е.40 запросов в секунду.Довольно тяжелый, но "выполнимый" (если только приложение не занимает 15 секунд на запрос ...)

Редактировать (Декабрь 2012)
:Я добавляю сюда "краткое изложение" предложенной выше модели, как указано в комментариях full.stack.ex.
В этой модели мы предполагаем, что большинство людей посещают нашу систему, скажем, в полдень.Это самое пиковое время.Другие забегают вперед или отстают, и чем дальше, тем меньше;В полночь никого.Мы выбрали колоколообразную кривую, которая разумно охватывает все запросы в течение 24-часового периода:при примерно 4 сигмах слева и 4 справа в длинном хвосте не остается "ничего" существенного.Чтобы имитировать самый пик, мы вырезаем узкую полоску вокруг полудня и подсчитываем там запросы.

Примечательно, что эта модель на практике имеет тенденцию переоценивать пиковый трафик и может оказаться более полезной при оценке сценария "наихудшего варианта", а не более вероятных моделей трафика.Предварительными предложениями по улучшению оценки являются

чтобы расширить sig параметр (для подтверждения того, что эффективный период трафика при относительно высоком трафике больше)
сократить общее количество посещений за рассматриваемый период, т.е.уменьшите V параметр, скажем, на 20% (чтобы признать, что примерно столько посещений происходит снаружи в любое пиковое время)
использовать другое распределение, например, пуассоновское или какое-нибудь биномиальное распределение.
учитывать, что каждый день наблюдается несколько пиков и что кривая трафика на самом деле представляет собой сумму нескольких нормальных (или других функций распределения) с аналогичным разбросом, но с отчетливым пиком.Предполагая, что такие пики находятся на достаточном расстоянии друг от друга, мы можем использовать исходную формулу, только с V коэффициент, деленный на столько пиков, сколько учитывалось.

[оригинальный ответ]
Похоже, что ваша непосредственная забота заключается в том, как сервер (ы) может справиться с дополнительной нагрузкой...Очень достойная забота ;-).Не отвлекая вас от этой оперативной задачи, рассмотрим процесс оценки масштабов предстоящего всплеска, также обеспечивающий возможность подготовиться к сбору более подробной информации о посещаемости сайта, во время рекламной кампании и после нее.Такая информация со временем окажется полезной для более точных оценок скачков напряжения и т.д., А также для руководства некоторыми элементами дизайна сайта (для коммерческой эффективности, а также для улучшения масштабируемости).

Предварительный план

Предполагайте качественное сходство с существующим трафиком.
В ходе рекламной кампании сайт будет представлен населению (типу пользователей), отличному от его текущего контингента посетителей/пользователей:в разных ситуациях выбираются разные темы.Например, посетители "рекламной кампании" могут быть более нетерпеливыми, сосредоточенными на определенной функции, обеспокоенными ценой...по сравнению с посетителями "self selected ?".Тем не менее, из-за отсутствия какой-либо другой поддерживающей модели и измерения, а также ради оценки нагрузки, общим принципом могло бы быть предположение, что пользователи surge в целом будут вести себя аналогично самоизбранной толпе.Общим подходом является "прогон чисел" на этой основе и использование обоснованных предположений для незначительного изменения коэффициентов модели с учетом нескольких характерных качественных различий.

Сбор статистики о существующем трафике
Если только у вас нет для этого более подробной информации (например.tealeaf, Google Analytics ...) вашим источником такой информации может быть просто журнал веб-сервера...Затем вы можете создать несколько простых инструментов для извлечения, анализа этих журналов и извлечения следующей статистики.Обратите внимание, что эти инструменты будут использоваться повторно для будущего анализа (например:самой кампании), а также ищите возможности регистрировать больше / разные данные, без существенного изменения приложения!

Среднее значение, Минимальное, Максимальное, Std Dev.для
- количество страниц, посещенных за сеанс
- продолжительность сеанса
процент от 24-часового трафика за каждый час рабочего дня (исключая выходные дни и тому подобное, если, конечно, этот сайт не получает много трафика в эти периоды) Эти проценты должны рассчитываться в течение нескольких недель, по крайней мере, для устранения шума.

"Прогоните" некоторые оценки:
Например, начните с оценки пикового использования, используя процентное соотношение часов пик, среднее количество ежедневных сеансов, среднее количество просмотров страниц за сеанс и т.д.Эта оценка должна учитывать стохастический характер трафика.Обратите внимание, что на этом этапе вам не нужно беспокоиться о влиянии эффекта очереди, вместо этого предположите, что время обслуживания по отношению к периоду запроса достаточно мало.Поэтому просто используйте реалистичную оценку (или, скорее, значение, полученное из анализа журнала для этих очень высоких периодов использования) того, как вероятность запроса распределяется на короткие периоды (скажем, на 15 минут).

Наконец, основываясь на цифрах, полученных таким образом, вы можете получить представление о типе дополнительной нагрузки, которую это будет представлять на сервере, и спланировать добавление ресурсов для рефакторинга части приложения.Также - очень важно!- если прогнозируется устойчивая загрузка на полную мощность, начните использовать формулу Поллачека-Хинчина, предложенную ChrisW, чтобы получить более точную оценку эффективной нагрузки.

Для получения дополнительного кредита ;-) Подумайте о проведении нескольких экспериментов во время кампании, например, с помощью случайным образом предоставление отдельного внешнего вида или поведения для некоторых посещенных страниц и измерение влияния, которое это может оказать (если таковое имеется) на конкретные показатели (регистрация для получения дополнительной информации, место заказа, количество посещенных страниц ...) Усилия, связанные с экспериментами такого типа, могут быть значительными, но и отдача также может быть значительной, и, по крайней мере, это может держать вашего "эксперта / консультанта по удобству использования" в напряжении ;-) Очевидно, что вы захотите поработать над определением таких экспериментов с соответствующими маркетинговыми / бизнес-органами, и вам, возможно, потребуется заранее рассчитать минимальный процент пользователей, которым будет предложен альтернативный сайт, чтобы эксперимент был статистически репрезентативным.Действительно, важно знать, что эксперимент не обязательно проводить с 50% посетителей;можно начать с малого, но не настолько, чтобы наблюдаемые возможные вариации были случайными...

Другие советы

Я бы начал с предположения, что «в день» означает «в течение 8-часового рабочего дня», потому что это худший сценарий, но, возможно, он не является излишне худшим.

Итак, если вы получаете в среднем 100 000 за 8 часов, и если время прибытия каждого из них случайно (независимо от других), то через несколько секунд вы получаете больше, а через несколько секунд — меньше.Детали – это отрасль знаний, называемая «теория массового обслуживания".

Предполагая, что Формула Поллачека-Хинчина применимо, то потому, что ваше время обслуживания (т. е.время процессора на запрос) довольно мало (т.е.меньше секунды, наверное), поэтому вы можете себе позволить иметь довольно высокий (т.е.загрузка сервера более 50%.

Подводя итог, предполагая, что время на один запрос невелико, вам нужна более высокая емкость (но есть и хорошие новости:ненамного выше), чем то, что требуется для обслуживания среднего спроса.

Плохая новость заключается в том, что если ваша емкость меньше средней потребности, то средняя задержка в очереди бесконечна (или, что более реалистично, некоторые запросы будут отменены до того, как они будут обслужены).

Другая плохая новость заключается в том, что когда время вашего обслуживания невелико, вы чувствительны к временным колебаниям среднего спроса, например...

Если пик спроса приходится на обеденный перерыв (т.не такой средний спрос, как в другие часы), или даже если по какой-то причине он достигает пика в течение 5-минутного периода (например, во время рекламной паузы на телевидении)
И если вы не можете себе позволить, чтобы клиенты стояли в очереди в течение этого периода (например,очередь в течение всего обеденного перерыва или, например,всю пятиминутную рекламную паузу)

...тогда вашей мощности должно быть достаточно для удовлетворения этих краткосрочных пиковых потребностей.OTOH, вы можете решить, что можете позволить себе потерять излишек:что не стоит проектировать для пиковой мощности (например.найм дополнительного персонала колл-центра во время обеденного перерыва) и что вы можете позволить себе некоторый процент потерянных звонков.

Это будет зависеть от маркетинговой кампании.Например, телевизионная реклама принесет большой трафик сразу, а газетная реклама будет более распространена в течение дня.

Мой опыт работы с маркетологами показывает, что они просто берут цифры там, где не светит солнце, обычно превышающие реальность как минимум на порядок.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow