4 причины неудач проектов по работе с большими данными и 4 способа добиться успеха

Проекты больших данных, ну, большие по размеру и размеру, часто очень амбициозны и слишком часто заканчиваются полным провалом. В 2016 году Gartner подсчитала, что 60% проектов по работе с большими данными потерпели неудачу. Год спустя аналитик Gartner Ник Хьюдекер сказал, что его компания была «слишком консервативной» со своей оценкой в ​​60%, и оценил процент отказов примерно в 85%. Сегодня он говорит, что ничего не изменилось.

Gartner не одинок в такой оценке. Боб Маглиа, давний руководитель Microsoft и (до недавнего времени) генеральный директор Snowflake Computing, сказал сайту аналитики Datanami: «Я не могу найти счастливого клиента Hadoop. Это вроде как так просто. … Число клиентов, которые действительно успешно освоили Hadoop, вероятно, меньше 20, а может и меньше десяти. Это просто безумие, учитывая, как долго этот продукт, эта технология присутствует на рынке и сколько в целом отраслевой энергии было потрачено на это ». Hadoop, конечно же, является двигателем, который запустил манию больших данных.

Другие люди, знакомые с большими данными, также говорят, что проблема остается реальной, серьезной и не только технологической. На самом деле, технологии - второстепенная причина неудач по сравнению с настоящими виновниками. Вот четыре основных причины, по которым проекты больших данных терпят неудачу, и четыре основных способа достижения успеха.

Проблема больших данных №1: плохая интеграция

Хьюдекер сказал, что за сбоями в работе с большими данными скрывается одна серьезная технологическая проблема: интеграция разрозненных данных из нескольких источников для получения необходимой информации. Наладить связи с изолированными устаревшими системами просто непросто. По его словам, затраты на интеграцию в пять-десять раз превышают стоимость программного обеспечения. «Самая большая проблема - это простая интеграция: как связать несколько источников данных вместе, чтобы получить какой-то результат? Многие идут по озеру данных и думают, что если я свяжу все с чем-то, произойдет что-то волшебное. Это не так », - сказал он.

Разрозненные данные - часть проблемы. Клиенты сказали ему, что они вытащили данные из систем записи в общую среду, такую ​​как озеро данных, и не могли понять, что означают значения. «Когда вы загружаете данные в озеро данных, как узнать, что означает цифра 3?» - спросил Хёдекер.

«Поскольку они работают разрозненно или создают озера данных, которые представляют собой просто болота данных, они просто касаются поверхности того, чего они могут достичь», - сказал Алан Моррисон, старший научный сотрудник PwC. «Они не понимают всех взаимосвязей в данных, которые необходимо добыть или вывести и сделать явными, чтобы машины могли адекватно интерпретировать эти данные. Им необходимо создать слой графа знаний, чтобы машины могли интерпретировать все данные экземпляра, отображаемые под ним. В противном случае у вас просто озеро данных, которое представляет собой болото данных », - сказал он.

Проблема больших данных № 2: неопределенные цели

Вы можете подумать, что большинство людей, занимающихся проектами по работе с большими данными, на самом деле имеют в виду цель, но удивительное их количество - нет. Они просто запускают проект с целью запоздалую мысль.

«Вы должны хорошо оценить проблему. Люди думают, что могут соединить структурированные и неструктурированные данные и получить нужную информацию. Вы должны заранее определить проблему. Какое понимание вы хотите получить? У него есть четкое определение проблемы и ее определение заранее », - сказал Рэй Кристофер, менеджер по маркетингу продукта в Talend, компании, занимающейся разработкой программного обеспечения для интеграции данных.

Джошуа Гринбаум, главный аналитик Enterprise Application Consulting, сказал, что отчасти из того, что мешает как большим данным, так и проектам хранилищ данных, главным руководящим критерием обычно является накопление больших объемов данных, а не решение отдельных бизнес-задач.

«Если собрать воедино большие объемы данных, получится дамп данных. Я называю это санитарной свалкой. Свалки - не лучшее место для поиска решений », - сказал Гринбаум. «Я всегда говорю клиентам, что они сначала решают, какую дискретную бизнес-проблему нужно решить, а затем смотрят на качество имеющихся данных и решают проблему с данными, как только бизнес-проблема обнаружена».

«Почему большинство проектов с большими данными терпят неудачу? Во-первых, у большинства руководителей проектов больших данных отсутствует видение, - сказал Моррисон из PwC. «Предприятия не понимают, что такое большие данные. Большинство думает только о числовых данных или НЛП в виде черного ящика и механизмах распознавания, которые выполняют простой анализ текста и другие виды распознавания образов ».

Проблема больших данных № 3: отсутствие навыков

Слишком часто компании думают, что внутренние навыки, которые они приобрели в области создания хранилищ данных, будут преобразованы в большие данные, хотя это явно не так. Во-первых, хранилище данных и большие данные обрабатывают данные совершенно противоположным образом: хранилище данных создает схему при записи, что означает, что данные очищаются, обрабатываются, структурируются и упорядочиваются еще до того, как они попадут в хранилище данных.

В больших данных данные накапливаются и применяется схема при чтении, при которой данные обрабатываются по мере чтения. Так что, если обработка данных идет от одной методологии к другой, вы можете поспорить, что навыки и инструменты тоже. И это всего лишь один пример.

«Навыки всегда будут проблемой. Если мы говорим о больших данных через 30 лет, проблема все равно будет », - сказал Худекер. «Многие люди вешают шляпу на Hadoop. Моим клиентам сложно найти ресурсы Hadoop. Spark немного лучше, потому что этот стек меньше и его легче тренировать. Hadoop - это десятки программных компонентов ».

Проблема больших данных no 4: разрыв в поколении технологий

Проекты больших данных часто берут из старых хранилищ данных и пытаются объединить их с новыми источниками данных, такими как датчики, веб-трафик или социальные сети. Это не полностью вина предприятия, которое собирало эти данные задолго до появления идеи анализа больших данных, но, тем не менее, это проблема.

«Практически самый большой недостающий навык - это умение понимать, как объединить эти две заинтересованные стороны, чтобы заставить их работать вместе для решения сложных проблем», - сказал консультант Гринбаум. «Разрозненные хранилища данных могут быть препятствием для проектов больших данных, потому что нет ничего стандартного. Поэтому, когда они начинают смотреть на планирование, они обнаруживают, что эти системы не были реализованы таким образом, чтобы эти данные могли использоваться повторно », - сказал он.

«В разных архитектурах вам нужно выполнять обработку по-разному», - сказал Кристофер из Talend. «Различия в технических навыках и архитектуре были частой причиной, по которой нельзя было взять существующие инструменты для локального хранилища данных и интегрировать их с проектом больших данных, потому что эти технологии станут слишком дорогими для обработки новых данных. Итак, вам нужны Hadoop и Spark, и вам нужно изучать новые языки ».

Решение для больших данных №1: планируйте заранее

Это старое клише, но здесь применимо: если вы не планируете, планируйте неудачу. «Успешные компании - это те, у кого есть результат», - сказал Хьюдекер из Gartner. «Выберите что-нибудь маленькое, достижимое и новое. Не выбирайте унаследованный вариант использования, потому что у вас есть ограничения ».

«Им нужно сначала подумать о данных и моделировать свои организации в машиночитаемом виде, чтобы данные служили этой организации», - сказал Моррисон из PwC.

Решение для больших данных № 2: Работайте вместе

Слишком часто заинтересованные стороны не участвуют в проектах с большими данными - те самые люди, которые будут использовать результаты. По словам Худекера, если все заинтересованные стороны будут сотрудничать, они смогут преодолеть множество препятствий. «Если квалифицированные люди работают вместе и работают с представителями бизнеса для достижения практических результатов, это может помочь», - сказал он.

Худекер отметил, что компании, преуспевающие в области больших данных, вкладывают значительные средства в необходимые навыки. Он больше всего видит это в компаниях, управляющих данными, таких как финансовые услуги, Uber, Lyft и Netflix, где состояние компании основано на наличии надежных и действенных данных.

«Сделайте это командным видом спорта, чтобы помогать собирать и очищать данные. Это также может повысить целостность данных, - сказал Кристофер из Talend.

Решение для больших данных № 3: фокус

Люди, похоже, считают, что проект по работе с большими данными должен быть масштабным и амбициозным. Как и все, что вы изучаете впервые, лучший способ добиться успеха - это начать с малого, а затем постепенно расширять свои амбиции и масштабы.

«Они должны очень узко определять то, что они делают», - сказал Худекер. «Они должны выбрать проблемную область и владеть ею, например, обнаружение мошенничества, микросегментирование клиентов или выяснение того, какой новый продукт представить на рынке миллениалов».

«В конце концов, вы должны спросить, какое понимание вы хотите или бизнес-процесс, который нужно оцифровать», - сказал Кристофер. «Вы не просто бросаете технологии на бизнес-проблему; вы должны определить это заранее. Озеро данных необходимо, но вы не хотите собирать данные, если они не будут использоваться кем-либо в бизнесе ».

Во многих случаях это также означает, что вы не раздуваете собственную компанию. «В каждой компании, которую я когда-либо изучал, есть всего несколько сотен ключевых концепций и отношений, на которых работает весь бизнес. Как только вы это поймете, вы поймете, что все эти миллионы различий - лишь небольшие вариации этих нескольких сотен важных вещей », - сказал Моррисон из PwC. «Фактически, вы обнаруживаете, что многие небольшие вариации вообще не являются вариациями. На самом деле это одни и те же вещи с разными названиями, разными структурами или разными ярлыками », - добавил он.

Решение для больших данных № 4: отказ от наследия

Хотя вы можете захотеть использовать эти терабайты данных, собранных и хранящихся в вашем хранилище данных, факт в том, что вам может быть лучше просто сосредоточиться на недавно собранных данных в системах хранения, разработанных для больших данных и предназначенных для того, чтобы их нельзя было вводить в систему.

«Я бы определенно посоветовал не обязательно быть обязанным существующей технологической инфраструктуре только потому, что у вашей компании есть лицензия на нее», - сказал консультант Гринбаум. «Часто новые сложные проблемы могут потребовать новых комплексных решений. Возвращаться к старым инструментам корпорации в течение десяти лет - неправильный путь. Многие компании используют старые инструменты, и это убивает проект ».

Моррисон отметил: «Предприятиям необходимо перестать путаться в собственном нижнем белье и просто отказаться от устаревшей архитектуры, которая создает больше разрозненности». Он также сказал, что им нужно перестать ожидать, что поставщики решат за них свои сложные системные проблемы. «На протяжении десятилетий многие, кажется, полагают, что могут выкупить свой выход из проблемы больших данных. Любая проблема с большими данными - это проблема системная. Когда дело доходит до изменения любых сложных систем, нужно искать выход », - сказал он.