Кейсы

История науки о данных

Существует много разных дат и временных рамок, которые можно использовать для отслеживания медленного роста науки о данных и ее текущего влияния на индустрию управления данными, некоторые из наиболее важных из них описаны ниже.

В 1974 году Питер Наур написал «Краткий обзор компьютерных методов», неоднократно используя термин «наука о данных». Наур представил свое собственное запутанное определение новой концепции:

 «Полезность данных и процессов обработки данных проистекает из их применения в построении и обработке моделей реальности».

В 1977 году была создана IASC, также известная как Международная ассоциация статистических вычислений. Первая фраза их заявления о миссии гласит: «Миссия IASC состоит в том, чтобы связать традиционную статистическую методологию, современные компьютерные технологии и знания экспертов в предметной области, чтобы преобразовать данные в информацию и знания».

В 1977 году Тьюки написал вторую статью под названием «Исследовательский анализ данных», в которой доказывал важность использования данных при выборе «каких» гипотез для проверки, а также то, что анализ подтверждающих данных и исследовательский анализ данных должны работать рука об руку.

В 1989 году организация «Обнаружение знаний в базах данных», которая впоследствии превратилась в конференцию ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных, организовала свой первый семинар.

В 1994 году Business Week опубликовал статью «Маркетинг баз данных», в которой говорилось, что зловещие новостные компании начали собирать большие объемы личной информации, планируя начать новые странные маркетинговые кампании. Поток данных в лучшем случае сбивал с толку многих менеджеров компаний, которые пытались решить, что делать с таким количеством разрозненной информации.

В 1999 году Джейкоб Захави указал на потребность в новых инструментах для обработки огромных и постоянно растущих объемов данных, доступных для бизнеса, в своей работе «Извлечение данных для самородков знаний». Он написал:

«Масштабируемость — огромная проблема в интеллектуальном анализе данных… Обычные статистические методы хорошо работают с небольшими наборами данных. Однако современные базы данных могут содержать миллионы строк и десятки столбцов данных… Еще одна техническая проблема заключается в разработке моделей, способных лучше анализировать данные, выявлять нелинейные связи и взаимодействие между элементами… Возможно, потребуется использовать специальные инструменты для интеллектуального анализа данных. разработан для решения вопросов, связанных с веб-сайтом».

В 2001 году было создано программное обеспечение как услуга (SaaS). Это было предшественником использования облачных приложений.

В 2001 году Уильям С. Кливленд изложил планы обучения специалистов по данным для удовлетворения потребностей будущего. Он представил план действий под названием «Наука о данных: план действий по расширению технических областей статистики». (Ищите значок «прочитать» в нижней части экрана.) В нем описывалось, как увеличить технический опыт и диапазон аналитиков данных, а также определялись шесть областей обучения для университетских факультетов. Он способствовал развитию конкретных ресурсов для исследований в каждой из шести областей. Его план также применим к правительственным и корпоративным исследованиям. В 2001 году было создано программное обеспечение как услуга (SaaS). Это было предшественником использования облачных приложений.

В 2002 году Международный совет по науке: Комитет по данным для науки и технологий начал издавать журнал Data Science Journal, посвященный таким вопросам, как описание систем данных, их публикация в Интернете, приложения и юридические вопросы. Статьи для Data Science Journal принимаются их редакторами и должны соответствовать определенным правилам.

В 2006 году была выпущена нереляционная база данных Hadoop 0.1.0 с открытым исходным кодом. Hadoop был основан на Nutch, еще одной базе данных с открытым исходным кодом. Две проблемы с обработкой больших данных — это хранение огромных объемов данных и последующая обработка этих сохраненных данных. (Системы управления реляционными базами данных (RDBMS) не могут обрабатывать нереляционные данные.) Hadoop решил эти проблемы. Apache Hadoop теперь представляет собой программную библиотеку с открытым исходным кодом, которая позволяет исследовать большие данные.

В 2008 году название «ученый по данным» стало модным словом и, в конечном итоге, частью языка. DJ Patil и Jeff Hammerbacher из LinkedIn и Facebook получили признание за то, что они начали использовать его в качестве модного слова. (В 2012 году Гарвардский университет объявил специалистов по данным самой сексуальной профессией двадцать первого века.)

В 2009 году термин NoSQL был повторно введен (вариант использовался с 1998 года) Йоханом Оскарссоном, когда он организовал обсуждение «нереляционных баз данных с открытым исходным кодом».

В 2011 году списки вакансий для специалистов по данным увеличились на 15 000%. Также увеличилось количество семинаров и конференций, специально посвященных науке о данных и большим данным. Наука о данных зарекомендовала себя как источник прибыли и стала частью корпоративной культуры. Кроме того, в 2011 году Джеймс Диксон, технический директор Pentaho, продвигал концепцию озер данных, а не хранилищ данных. Диксон заявил, что разница между хранилищем данных и озером данных заключается в том, что хранилище данных предварительно классифицирует данные в точке входа, что приводит к потере времени и энергии, в то время как озеро данных принимает информацию с использованием нереляционной базы данных (NoSQL) и не обрабатывает ее. не классифицировать данные, а просто хранить их.

В 2013 году IBM поделилась статистикой, показывающей, что 90% данных в мире были созданы за последние два года.

В 2015 году с использованием методов глубокого обучения в системе распознавания речи Google Voice произошел резкий скачок производительности на 49 процентов.

В 2018 году Джек Кларк из Bloomberg написал, что это был знаковый год для искусственного интеллекта (ИИ). В Google общее количество программных проектов, использующих ИИ, увеличилось со «спорадического использования» до более чем 2700 проектов за год.