Какие данные скорее вред, чем польза?

Исследователи разбивают свойства Big Data на четыре, каждое из которых, играет определенную роль в анализе и подтверждает их бизнес-ценность.

Условно свойства Big data определялись четырьмя «V»:

1. VOLUME — масштаб
2. VARIETY — разнообразие
3. VELOCITY — скорость передачи
4. VERACITY — достоверность

В настоящее время упоминается еще «пятый V» больших данных, который играет весьма существенную роль. Это VALUE — стоимость.

Существует много источников данных и сегодня их больше, чем когда-либо.

По сведениям IDC, в 2025 году глобальные данные вырастут до 163 Зетабайт (триллион гигабайт). Это в 10 раз больше, чем 16,1 цетта-байт данных, сгенерированных только в 2016 году.

С появлением новых приложений и процессов каждый день мы будем только увеличивать в своей повседневной жизни число датчиков, систем и устройств для передачи Big Data.

Но не все так гладко, как кажется на первый момент. Не факт, что много данных — это только хорошо.

Рассмотрим случаи, когда имеющиеся данные — это скорее вред, чем польза.

Почему мы должны учитывать такое свойство, как «VALUE» и какие данные значительно влияют на ее определение?

1. В первую очередь, речь идет о грязных данных.

Грязные данные — это неверные, неточные, вводящие в заблуждения, дубликаты, занесенные с нарушением бизнес-процессов, а также с банальными нарушениями пунктуации или правописания.

Причиной возникновения такого вида ошибок является человеческий фактор, связанный с ежедневными рутинными операциями работников, специалистов по сбору данных.

Еще один немаловажный фактор, который влияет на появление грязных данных — критический срок для сбора, когда люди просто делают исправления в ошибках, которые очевидны, на поверхности, не вникая в причину или первоисточник их возникновения.

2. Скрытые или «темные данные»

Большинство компаний имеют темные данные или данные, которые они собирают, обрабатывают и хранят как часть повседневной деловой активности, но не используют для каких-либо значимых исследований и решений. В этих данных есть ценность, но этот потенциал скрыт от глаз.

В первую очередь, такая ситуация может возникнуть в результате несогласованности действий разных отделов компании, например, Data Scientists и IT-отделами.

Задача Data Scientist-ов уметь собирать информацию от разных конечных точек и генерировать ответы на возникающие в результате анализа вопросы.

3. Неструктурированные данные

Иногда данные доступны, но не готовы к использованию.
Их необходимо обогатить, в некотором смысле, сделать их совместимыми с системой, которая должна потребляют данные.

Для подготовки данных для алгоритмов машинного обучения, используется информация автономных систем и все они должны быть структурированы.

Например, тысячи часов видео должны быть разбиты, часто кадр за кадром, в массовом масштабе (подумайте, миллионы кадров!).

Только после этого неструктурированные данные преобразуются в структурированные и используется для создания и обучения моделей машинного обучения.

Сейчас самое время подумать над тем, какие данные имеете вы и как их можно использовать для достижения цели, минимизируя риски, связанные с повышением стоимости данных.

Оставьте заявку и получите бюджет и план внедрения наших решений в ваш бизнес

    Заполняя форму, Вы соглашаетесь с правилами обработки персональных данных.

    We use cookies and other technologies to make our Website and its services convenient for you. By continuing to visit or use our services, you are agreeing to the use of Cookies and similar technologies for the purposes we describe in the «Cookie Statement»