Как получить научные результаты на основе неэкспериментальных данных (datamining?)

StackOverflow https://stackoverflow.com/questions/105996

  •  01-07-2019
  •  | 
  •  

Вопрос

  • Я хочу получить максимальную производительность от процесса со многими переменными, многими из которых невозможно управлять.
  • Я не могу провести тысячи экспериментов, поэтому было бы неплохо, если бы я мог провести сотни экспериментов и
    • варьируйте множество контролируемых параметров
    • сбор данных по многим параметрам, указывающим на производительность
    • "исправьте", насколько это возможно, те параметры, которые я не мог контролировать
    • Определите "наилучшие" значения для тех вещей, которые я могу контролировать, и начните все сначала

Такое ощущение, что это можно было бы назвать интеллектуальным анализом данных, когда вы просматриваете тонны данных, которые не сразу кажутся связанными, но после некоторых усилий обнаруживают корреляцию.

Итак...С чего мне начать изучение алгоритмов, концепций, теории подобных вещей?Даже родственные термины для целей поиска были бы полезны.

Предыстория:Мне нравится участвовать в ультрамарафонских велогонках и вести записи о каждой поездке.Я бы хотел сохранить больше данных и после сотен поездок иметь возможность извлекать информацию о том, как я выступаю.

Однако все меняется - маршруты, окружающая среда (температура, давление, гул, солнечная нагрузка, ветер, осадки и т.д.), топливо, ориентация, вес, нагрузка по воде и т.д. и т.п.Я могу контролировать некоторые вещи, но проехать по одному и тому же маршруту 20 раз, чтобы опробовать новый топливный режим, было бы просто удручающе, и потребовались бы годы, чтобы провести все эксперименты, которые я хотел бы провести.Однако я могу записать все это и многое другое (телеметрия на bicycle FTW).

Это было полезно?

Решение

Звучит так, будто ты хочешь кое-что сделать регрессионный анализ.У вас, конечно, предостаточно данных!


Регрессионный анализ - чрезвычайно распространенный метод моделирования в статистике и естественных науках.(Можно утверждать, что статистика - это искусство и наука регрессионного анализа.) Существует множество пакетов статистики для выполнения необходимых вам вычислений.(Я бы порекомендовал один из них, но я устарел на много лет.)

Интеллектуальный анализ данных получил дурную славу, потому что слишком часто люди предполагают, что корреляция равна причинно-следственной связи.Я обнаружил, что хороший метод - начать с переменных, которые, как вы знаете, оказывают влияние, и сначала построить статистическую модель вокруг них.Итак, вы знаете, что ветер, вес и набор высоты влияют на то, с какой скоростью вы можете путешествовать, и статистическое программное обеспечение может взять ваш набор данных и вычислить, какова корреляция между этими факторами.Это даст вам статистическую модель или линейное уравнение:

speed = x*weight + y*wind + z*climb + constant

Когда вы исследуете новые переменные, вы сможете увидеть, улучшилась модель или нет, сравнив показатель соответствия, такой как R-квадрат.Таким образом, вы можете проверить, добавляет ли что-нибудь температура или время суток к модели.

Возможно, вы захотите применить преобразование к своим данным.Например, вы можете обнаружить, что ваши результаты лучше в более холодные дни.Но по-настоящему холодные и по-настоящему жаркие дни могут сказаться на производительности.В этом случае вы могли бы назначить температуру бункерам или сегменты:< 0°C;От 0°C до 40°C;> 40 ° C или что-то в этом роде.Главное - преобразовать данные таким образом, чтобы они соответствовали рациональной модели того, что происходит в реальном мире, а не только самим данным.


На случай, если кто-то считает, что это тема, не связанная с программированием, обратите внимание, что вы можете использовать эти же методы для анализа производительности системы.

Другие советы

При таком количестве переменных у вас слишком много измерений, и вы можете захотеть взглянуть на Анализ основных компонентов.Это лишает регрессионный анализ части "искусства" и позволяет данным говорить самим за себя.Некоторое программное обеспечение для проведения такого рода анализа показано в нижней части ссылки.

Я использовал модуль Perl Статистика::Регрессия для решения несколько похожих проблем в прошлом.Однако имейте в виду, что регрессионный анализ - это, безусловно, искусство.Как говорится в предупреждении в модуле Perl, это не будет иметь для вас смысла, если вы не выучили соответствующую математику.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top