Понимание данных

Первый шаг к очистке «грязных» данных –это понимание того, почему они получились такими.

До сих пор, самой большой проблемой в обеспечении точности Big Data является человеческий фактор.

Как бы всё не было автоматизировано и механизировано, работа с большими данными осуществляется прежде всего человеческими руками, а людям свойственно ошибаться.

Ошибки в данных, связанные с человеком, могут иметь множественное происхождение.

Например:

1.Некорректное введение.
Введенные данные не соответствуют допустимым значениям поля.
Например, значение определенного месяца, вероятно будет числом от 1 до 12. Человек случайно может ввести совершенно произвольное значение и исправить эту ошибку можно только с помощью просмотра таблиц и редактирования.

2.Неаккуратное введение.
Значение ввели неаккуратно, непонятно. Система может оценить точное значение таких данных только на основе контекста.

3. С нарушением бизнес правил.
Значение недействительно или введено с нарушением правил бизнеса.
Например, дата вступления договора в силу всегда должна быть указана до даты истечения срока действия договора, а не наоборот.

4. Нестабильность информации.
Значение в одном поле не соответствует значению в поле, которое должно иметь те же данные.
Например, данные об одном и том же клиенте в полях из разных источников не совпадают.

5. Неполная информация.
У данных отсутствуют значения. Например, в записи адреса клиента отсутствует улица.

6. Дубликаты.
Данные появляются более одного раза в системе. Основные причины возникновения дубликатов — повторные представления, неправильное соединение данных из разных источников, ошибки пользователя при занесении информации.

Поэтому, перед использованием имеющихся данных для построения бизнес-модели, необходимо учитывать все факторы и провести ряд упреждающих процедур для повышения качества Big Data:

1. Разработчик может использовать скрипты и средства кодирования для более точного и согласованного объединения данных из разных источников.

2. При загрузке данных можно показать системе , что необходимо удалить дубликаты, отрегулировать регистр, формат даты/времени и учитывать орфографию.

Извлечение, преобразование, загрузка (ETL) — это процессы, известные с 1970-х годов, которые ассимилируют данные из разных источников в единую базу.
Форматы данных, источники и системы значительно расширились со временем и ETL не являются единственными методами, которые используют для сбора, импорта и обработки Big Data , но в любом случае они должны быть важной частью вашей стратегии интеграции данных.

Оставьте заявку и получите бюджет и план внедрения наших решений в ваш бизнес

    Заполняя форму, Вы соглашаетесь с правилами обработки персональных данных.

    We use cookies and other technologies to make our Website and its services convenient for you. By continuing to visit or use our services, you are agreeing to the use of Cookies and similar technologies for the purposes we describe in the «Cookie Statement»