Какие факты полезно учесть при запуске проектов аналитики данных?

Юлия Порохненко, аналитик данных, Beltel Datanomics.

Данные нужно подготовить

Идеальные данные – это утопия, которая может встречаться только в теории. В реальном мире данные никогда не бывают чистыми.

Самые распространенные проблемы, которые могут возникнуть при работе с данными:

  • Неполная информация: пропущенные данные и отсутствие разметки, которые появляются при обработке и записи данных из-за ошибок в программном обеспечении, человеческого фактора или при аварийной потере данных.
  • Неверные значения параметров: такие данные могут появляться, например, при неисправности датчиков на производстве.
  • Аномальные значения: данные, которые не вписываются в обычный сценарий какого-то процесса, например, увеличение продаж на товары первой необходимости из-за ситуации с коронавирусом.

Для обработки большого объёма данных требуются большие вычислительные мощности, при этом не всегда есть необходимость в работе со всей информацией одновременно. Целесообразно делить данные на удобные для работы и понимания таблицы и исключать избыточную информацию.

Для того, чтобы модель достигла желаемой точности и работала эффективно, данные необходимо подготовить: убрать «шумы», заполнить пропущенные значения, выделить наиболее значимые параметры и т.д. Подготовка данных занимает 80% времени в проектах анализа данных и является самым трудоемким и ответственным этапом в разработке.

Аналитика данных – не решение «из коробки»

У каждой компании уникальные данные, свой способ обработки и хранения, комплекс программного обеспечения и т.д. Всё это требует индивидуального подхода.

Существуют общие методы и принципы, которые могут применяться для различных классов задач, но их чаще всего недостаточно для достижения наилучшего результата.

Необходимо принимать во внимание:

  • Технические возможности компании: от этого зависит, как будут передаваться данные, архитектура решения, где будет располагаться конечный продукт – в облаке или на серверах.
  • Качество данных: влияет на набор алгоритмов для их подготовки.
  • Цели и результат: в зависимости от того, какой результат необходимо получить, применяются различные модели и алгоритмы.

Учитывая особенности проекта, можно получить наиболее эффективное решение.

Все модели ошибаются

Существует распространенное заблуждение, что искусственный интеллект – это идеальная модель, которая никогда не ошибается. Однако это не так. Невозможно получить модель машинного обучения, которая работала бы со стопроцентной точностью.

На точность влияет чистота входных данных, количество и значимость учитываемых параметров, выбранный алгоритм машинного обучения и прочие факторы.

Например, спрос на товар зависит от сезона, тренда, наличия промо-акции, дня недели, погоды, маршрута человека с работы до дома и прочего. Но не все признаки можно учесть при прогнозировании спроса, поэтому во внимание принимаются самые значимые. Основное правило – выдерживать баланс между затраченными усилиями на добавление признака и полученным результатом по качеству модели прогнозирования.

Джордж Бокс, британский статистик, писал: «В сущности, все модели неправильны, но некоторые полезны». Любой алгоритм машинного обучения будет ошибаться, задача – свести ошибку к минимуму и сделать решение эффективным.

Бизнес и наука – два разных мира 

Это утверждение касается и аналитики данных.

Научный подход – это поиск новых методов, проведение исследований и экспериментов, проверка гипотез и доказательства. Бизнес – это скорость в решении проблемы и эффективный результат.

Именно поэтому при разработке моделей нужно отдавать приоритет максимально возможной точности, которую можно получить за поставленные сроки, и не углубляться в бесконечный анализ и перебор подходов к решению задачи.

В алгоритмах всегда можно делать какие-то улучшения, но при этом необходимо понимать, что этот процесс может затянуться, а клиенту результат нужен уже сейчас.

Заключение

Подготовка данных, индивидуальный подход к задаче, ошибки моделей, сжатые сроки – это некоторые факты в работе специалистов по анализу данных. Знание этих особенностей при запуске проектов анализа данных позволяет заказчику точно оценивать сроки, формулировать достижимый результат, тем самым снижая риски проекта.

Оставьте заявку и получите бюджет и план внедрения наших решений в ваш бизнес

    Заполняя форму, Вы соглашаетесь с правилами обработки персональных данных.

    We use cookies and other technologies to make our Website and its services convenient for you. By continuing to visit or use our services, you are agreeing to the use of Cookies and similar technologies for the purposes we describe in the «Cookie Statement»