Джон Тьюки
Более 50 лет назад Джон Тьюки призвал к реформированию академической статистики. В «Будущем анализа данных» он указал на существование пока еще непризнанной науки, предметом интереса которой было обучение на основе данных или «анализ данных». Десять-двадцать лет назад Джон Чемберс, Билл Кливленд и Лео Брейман независимо друг от друга еще раз призвали академическую статистику расширить свои границы за пределы классической области теоретической статистики; Чемберс призвал уделять больше внимания подготовке и представлению данных, а не статистическому моделированию; а Брейман призвал делать акцент на предсказании, а не на выводах. Кливленд даже предложил броское название «Наука о данных» для предполагаемой области.
В статье 1962 года «Будущем анализа данных» [5] Джон Тьюки глубоко шокировал своих читателей (академических статистиков) следующими вступительными абзацами:
Долгое время я считал себя статистиком, интересующимся выводами от частного к общему. Но по мере того, как я наблюдал за развитием математической статистики, у меня были причины удивляться и сомневаться. … В целом я пришел к выводу, что мой основной интерес заключается в анализе данных, который, как я понимаю, включает, среди прочего: процедуры анализа данных, методы интерпретации результатов таких процедур, способы планирования сбора данных. данные, чтобы сделать их анализ проще, точнее или точнее, а также все механизмы и результаты (математической) статистики, применимые к анализу данных.
Эта статья была опубликована в «Анналах математической статистики», центральном месте для передовых математических статистических исследований того времени. Другие статьи, появлявшиеся в то время в этом журнале, были математически точными и содержали определения, теоремы и доказательства. Напротив, статья Джона была своего рода публичным признанием, объясняющим, почему он считал такие исследования слишком узкими, возможно, бесполезными или вредными, а область статистических исследований необходимо резко расширить и перенаправить.
Джон Тьюки определил четыре движущие силы анализа данных (до 1962 года «науки о данных» не существовало):
- Формальные теории математики и статистики.
- Ускорение развития компьютеров и устройств отображения.
- Проблема во многих областях все большего и большего объема данных.
- Упор на количественную оценку во все более широком спектре дисциплин.
Список Тьюки 1962 года удивительно современен. Давайте рассмотрим эти моменты в сегодняшнем контексте. Люди обычно разрабатывают теории задолго до того, как они находят потенциальное применение. За последние 50 лет статистики, математики и программисты заложили теоретическую основу для построения «науки о данных» сегодня. Развитие компьютеров позволяет нам применять алгоритмические модели (которые могут быть очень дорогими в вычислительном отношении) и выдавать результаты удобным и интуитивно понятным способом. Поразительный переход к Интернету и Интернету вещей генерирует огромное количество коммерческих данных. Отрасли также ощутили ценность использования этих данных. Наука о данных, по-видимому, несомненно, станет серьезной проблемой коммерческой жизни в ближайшие десятилетия. Все четыре силы, которые определил Джон, существуют и сегодня и движут наукой о данных.
Инструментарий и приложение быстро расширялись благодаря растущей доступности оцифрованной информации и возможности ее распространения через Интернет. Сегодня люди применяют науку о данных во многих областях, включая бизнес, здравоохранение, биологию, социальные науки, политику и т. д. Теперь наука о данных есть везде.
Таким образом, анализ данных является не только научной областью, но и такой же сложной, как и любая другая крупная область науки. И теоретическая статистика может играть лишь частичную роль в его развитии.