18 апреля 2019

Что такое данные, и как работает «биг дата»

8 минут на прочтение

Возможности и принципы обработки данных при помощи Big Data технологий

В целом, это точные числа, определяемые величины. В окружающей среде данные обозначают обильность осадков и степень влажности воздуха. В сфере торговли — средний чек и пожизненная ценность клиента. В маркетинговой сфере — возраст и пол. В менеджменте по работе с клиентами — индекс потребительской лояльности и удовлетворенность заказчика.

Данные – реальны и поддаются измерениям.

Предположения — индивидуальны и не поддаются измерениям.

Теперь, выяснив, что такое данные, давай разберемся с понятием «биг дата»

Что это – big data?

Наверняка ты уже перевел словосочетание «big data» как «большое количество информации». Но со временем этот термин приобрел еще более широкое значение.

Big data — это совокупность инструментов, способов и подходов к обрабатыванию данных. В первую очередь их используют для того, чтобы применять полученные выводы для решений определенных заданий.

Допустим, синоптики занимаются сбором исторических данных о погоде и современные метеорологические показатели → производят их обработку → составляют погодный прогноз в своем населенном пункте на несколько недель вперед. Таким образом, большие данные оказывают воздействие на решение задач практически в каждой отрасли.

Big data – это сочетание как упорядоченных, так и неупорядоченных данных:

  • упорядоченные: схемы, перечни, все, где подается организованная и готовая к использованию информация;
  • неупорядоченные: фотографии спутников, камер наблюдения, видеоролики, аудиозаписи бесед и т.д. С их помощью можно определить данные, но зафиксировать в таблице их не удастся. Для обработки неупорядоченных данных в системе устанавливают функцию их распознавания, возможно применение искусственного интеллекта и обучение машинного характера.

Биг дата обладает важнейшими характеристиками — так называемые VVV, сформулированные в 2001 году Meta Group:

  • Volume (объем) — объем и количество всех данных;
  • Variety (многообразие) — изменчивость, то есть разнообразные виды данных;
  • Velocity (скорость) — быстрота возрастания и обработки данных.

На сегодняшний день отмечается тенденция склонения к 4V (добавляется достоверность), например, как к IBM Big Data Analytics. В исключительных случаях — даже к 6V (плюс долговечность и ценность информации).

Как они возникают?

Производством огромного количества данных занимаемся именно мы: желая пообщаться в социальных сетях, посещая сайт и давая соглашение на применение куков, используя GPS, создавая заказы в интернет-магазинах. Это представляет собой цифровой след.

Некоторые данные создают машины: во время подключения смартфона к Wi-Fi в общественном месте, срабатывания датчиков сигнализации, фиксации коэффициента работы оборудованием предприятия. Эти данные накапливаются ежедневно и ежесекундно со всех точек мира, что позволяет зафиксировать все, что происходит.

Возможности Big Data

Биг дата оказывает помощь в глобальных вещах:

  • Открытие новых планет. NASA, анализируя данные, создает модели будущих полетов в космос.
  • Предсказание экстренных ситуаций. Ученые в области генеалогии и вулканологии, обрабатывая большое количество данных, могут предсказывать возможные катаклизмы и составлять действенные модели поведения для пострадавших, чтобы уберечь их от опасности.
  • Расследование происшествий. Jawbone вычислили центральную точку землетрясения в Калифорнии после изучения данных пользователей с тысяч фитнес-трекеров, фиксирующие момент пробуждения. Логика отличается простотой: люди, которые раньше всех проснулись, ближе находятся к очагу землетрясения. А это помогло определить, какая точка стала началом землетрясения. Эта история является образцом оригинального и мастерского применения больших данных.
прогнозирование

Big Data также используется для решения задач меньшего масштаба:

  • Шевроле применяет большое количество данных с целью усовершенствования моделей своих автомобилей. Для этого происходит установка специальных датчиков в машины, которые накапливают информацию о состоянии масла, скорости передвижения, давлении в шинах и т.п.
  • Платформы для любителей кино и сериалов помогают сделать выбор, что посмотреть, отталкиваясь от предпочтений пользователя и истории просмотров.
  • Ресурсы для знакомств занимаются сведением людей, используя объем данных.

Big data оказывает воздействие и в более узких бизнес-задачах:

  • Сбербанк в 2014 года прибегнул к применению системы анализа фотографий с целью идентификации клиентов банка, которая основана на биометрической платформе. В результате мошенничество было снижено в 10 раз.
  • ВТБ-24 заключает сотрудничество с аналитическими базами данных (Teradata, SAS Visual Analytics и SAS Marketing Optimizer) для сегментации и управления убыли клиентов, основываясь на большие данные; создания отчетностей финансового характера, анализа откликов о бизнесе.
  • Google.Trends предсказывает сезонную активность спроса, также используя big data.

Принципы работы

Основная суть работы big data заключается в том, что чем больше есть знаний, тем точнее ты можешь создать прогноз на будущее. Если ты знаешь, что в течение несколько сотен лет в твоем населенном пункте дожди начинались 20 сентября (если летом было 25-27 °C) или 5 октября (если летом было 28-30 °C), то осадки в нынешнем году тебе предсказать вполне реально. Может быть это и неудачный пример, но приблизительно так big data и работает.

Противопоставление данных и их взаимоотношений позволяет отыскивать неизвестные ранее закономерности. И тем самым, позволяет обнаружить big picture и разобраться в том, как система функционирует в совокупности, как осуществлять управление ею и как прогнозировать ее дальнейшее поведение.

С этой целью, отталкиваясь от имеющихся данных, происходит моделирование различных случаев/методик/вариантов (в зависимости от отрасли) и осуществляется имитация. Что будет при постановке таких условий? А если температура повысится на градус? А если влажность станет ниже на 25%? Система разрабатывает модель возможного развития ситуаций и демонстрирует, как изменение каждого определенного параметра воздействует на итоговый (вероятный) результат.

Конечно же процесс автоматический, принимая во внимание, что используются терабайты данных и моделируются сотни тысяч возможностей.

Как происходит обработка данных?

Сами по себе данные для человека не имеют смысла. Наш мозг не может сделать выводы из схемы о продажах на тысячи пунктов, не говоря уже о терабайтах разнообразных данных, которые могут быть еще и не упорядочены (как фотографии или видеозаписи).

Чтобы данные стали используемыми, их необходимо обработать — осуществляют анализ и получают результаты, которыми может пользоваться человек.

Главные техники и способы анализа данных:

  • идентификация образов;
  • предсказательная аналитика;
  • многомерный анализ;
  • анализ статистики;
  • интеллектуальный анализ данных (Data Mining);
  • краудсорсинг (включение человеческих возможностей для поиска общего решения конкретных проблем или воплощения проектов);
  • обучение машинного характера;
  • ИНС (искусственные нейронные сети);
  • Моделирование имитации;
  • визуализация данных аналитики, о которой уже шла речь выше.

Для всего этого подразумевается применение особых технологий:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • R;
  • Решения аппаратного характера.

Вполне вероятно, что некоторые из этих названий ты где-то слышал.

Для кого нужны?

В некоторых случаях Big data презентуют как неотъемлемый компонент для бизнеса.

Однако это далеко не так.

Биг дата — это не лекарство, а инструмент, который имеет свойство развиваться. Если компаниям наподобие ПриватБанка или Розетки есть смысл во внедрении больших данных, то местному малому/среднему бизнесу чаще всего это не составляет необходимости.

Прежде всего, при небольшом количестве работы не будет ни одного из VVV.

Также введение технологий такого рода для маленьких предприятий обычно неуместна.

Таким образом, на сегодняшний день большие данные является преимуществом крупного бизнеса и институтов исследовательского характера. Однако, вспоминая прием Jawbone с применением данных из фитнес-трекеров… Оригинальное мышление вполне может отыскать большие данные и малому бизнесу.

В чем причины популярности больших данных?

В первую очередь, следует выделить такие.

Большие данные полезны для клиентов

Они делают рекламу подходящей, в соответствии с предпочтениями пользователей, она не раздражает и презентует полезную продукцию. Выбирать в интернет-магазине становится гораздо легче и комфортнее: после приобретения ты не видишь рекламу того же продукта (зачем тебе еще планшет, если ты совсем недавно уже один приобрел?).

Зато отображается реклама сопроводительного новых наушников, пленок, чехлов для планшетов и прочих аксессуаров. Это практично и полезно. Это не вызывает раздражения у пользователя. А заказчик спокоен, ведь его предприятие ничего не теряет.

Большие данные способны преобразить рекламу из «втюхивания» в «действенный совет».

Оказывают влияние на конкуренцию

Ранее специалисты брендов по маркетингу во время работы с потенциальной аудиторией отталкивались от «маленьких данных»: пол, возраст, местонахождение. На сегодняшний день этими данными обладают все компании в различных отраслях. Отстраиваться от конкурентных компаний с каждым годом все труднее, назойливость рекламы возросла в разы.

Little Data Big Data
Парни 20-25 лет Парни 20-25 лет, которые учатся в бакалавриате и магистратуре, имеют дома собаку, курят
Женщины из Одессы Незамужние жительницы Одессы, живут на съемной квартире, питаются в заведениях быстрого питания

Большие данные позволяют с максимальной точностью определить потенциального клиента, нацеливаться на него по большому количеству параметров: стилю жизни, посещающим местам, философии жизнедеятельности. Бизнес более точно обращается к своим клиентам, и конкурентность способно эффективно развивать рынок.

Таким образом, ты можешь гораздо точнее идентифицировать свою аудиторию, обратить внимание на самые действенные секторы, и будешь осведомлен, где и каким образом до них достучаться!

Помогают составить оценку рекламы

Применение биг дата позволяет оценивать осуществляемые кампании в целом, аккуратно вносить к ним поправки без приостановления рекламной активности и конкретно знать действенность всех сообщений рекламного характера. А это означает более низкие расходы, высокую эффективность, рост окупаемости инвестиций, профит-профит.

Почему о Big Data заговорили только недавно?

Этому известно множество факторов. История возникновения больших данных (в то время еще неизвестного понятия) и его развития до нынешнего состояния очень насыщенная и в большей степени основана на действительности рынка, развитии технологий, достижениях некоторых евангелистских компаний тех времен.

На самом деле, в основе всего лежит всего-навсего один факт: люди научились делать сбор и обработку больших данных.

До «эпохи Big Data» В «эпоху Big Data»
Рекламу детской одежды демонстрировали всем девушкам старше 18 лет Кампании нацеливаются также на информацию из истории поисковых запросов: если женщину интересует «каким образом ухаживать за младенцем» или «какое имя дать своему ребенку» — ясно, что она составляет конкретную часть целевой аудитории.
Автомобиль часто ломался и его приходилось отвозить его в автосервис для ручного осмотра всех деталей по «симптомам» Электронные датчики занимаются фиксированием всех необходимых показателей в машине и подают сигнал в том случае, если хоть какой-то процесс отклоняется от штатного режима
Людям, которые больны, врачи ставили термометры, чтобы затем зафиксировать температуру тела в медицинскую карточку пациента На тело больного прикрепляются десятки датчиков, которые способны самостоятельно измерять температуру тела, артериальное давление и пульс; проводят дополнительное измерение в заданный промежуток времени и контролируют динамику состояния

Кроме этого, данные не только научились собирать, но еще и обрабатывать. Сотни терабайтов информации нуждаются в колоссальных компьютерных мощностях для обработки. Несколько десятков лет назад эти мощности не были в открытом доступе. В современном мире они становятся дешевле с каждым годом.

Например, по данным Mkomo цена хранения 1 Гб данных стала ниже более чем в 400 раз с начала XXI века.

Благодаря этому возможно внедрение больших данных предприятиями для каждодневной работы.

Что далее?

Теперь тебе известно множество способов, каким образом big data применяются в мире. Если ты считаешь целесообразным их введение в деятельность своей компании, тогда есть смысл углубиться в эту тему далее. Если же до больших данных тебе еще далеко, то ты теперь хорошо осведомлен о рыночной и технологической действительности. Ведь не зря говорят, что информация – это самая большая сила в мире.

(Visited 112 times, 1 visits today)
Юлия Скобцова
Контент-менеджер
1 звездочка2 звездочки3 звездочки4 звездочки5 звездочек (2 голос, средний бал: 5,00 из 5)
Загрузка...
Рекомендуем вам похожие статьи
Комментарии