AIN: Джозеп Курто: «В будущем все компании будут использовать Big Data»
Первый вопрос — что такое Big Data и где она начинается в плане масштабов? Например, если у меня есть 10 миллионов записей — это уже Big Data или еще нет? Сам термин употребляется очень часто в самых разных контекстах, но есть подозрение, что многие люди не полностью понимают его значение.
Это хороший вопрос — именно его задают себе компании: «Когда у меня есть проблема с большими данными?» Но иногда Big Data — это не совсем корректный термин. Все дело в сложной природе многих данных, которая может быть описана в терминах объема (volume), скорости их накопления и обработки (velocity) или разнообразия (variety).
Что это значит? Возможно, нам приходится иметь дело с петабайтами и сотнями петабайт данных. Возможно, нам необходимо справляться с обработкой и анализом данных на высокой скорости. В этом случае мы работаем с временными промежутками от миллисекунд до минут, и нам надо анализировать данные очень быстро, чтобы принимать решения или выявлять закономерности. Или наш набор данных не может быть представлен в традиционном виде — например, как таблица с набором атрибутов, описывающих данные. Все эти сценарии описывают сложную природу информации, с которой нам приходится работать, и это ключ к пониманию Big Data. У компании есть проблема с данными, когда ей необходимо извлечь какую-то ценность из сложных наборов данных.
В моем понимании, Big Data — это набор стратегий и технологий, которые позволяют захватывать, хранить, обрабатывать, анализировать и визуализировать сложные наборы данных.
То есть, грубо говоря, у компании есть проблема с большими данными, если она (компания) сидит на большой куче неструктурированной информации и не знает, что с ней делать?
Это один из способов описать данную ситуацию. Но, как я уже сказал, у проблемы есть три аспекта — объем, скорость и многообразие. Большие данные могут сочетать как все три фактора, так и два или даже один.
Но в будущем любой компании придется иметь дело с большими данными, поскольку все бизнесы постепенно проходят через цифровую трансформацию. Это означает, что все транзакции и взаимодействия с контрагентами становятся данными. И у компаний возникает вопрос: «Можем ли мы лучше понимать природу этой транзакции? Можем ли мы лучше понимать взаимодействия с нашими клиентами?» В этом контексте все отрасли — не только традиционно богатые данными индустрии вроде банковского сектора или телекома — будут использовать большие данные. Даже сельское хозяйство, в котором прямо сейчас происходит мини-революция. Аграрии стали очень активно использовать сенсоры, которые следят за состоянием почвы и растений. И это изумительная ситуация.
Стоит ли компаниям хранить любую, даже самую незначительную информацию в надежде извлечь из нее какую-то ценность в будущем? Или есть определенный порог того, что стоит сохранять, а что нет?
Это тоже очень важный вопрос. Нужно оценивать ситуацию с точки зрения конкретной проблемы. Хранить гигантские объемы данных в надежде на то, что из них можно что-то получить — это неверный подход. Необходимо идентифицировать конкретные области применения больших данных, создать пилотные проекты и посмотреть, насколько они действительно полезны. Если полезны, то можно их запускать и двигаться к следующей проблемной области. Конечно, необходимо правильно расставлять приоритеты и решать те проблемы, которые действительно важны для компании.
Например, если при помощи больших данных вы сможете перейти от сегментации покупателей к микросегментации покупателей, это будет иметь большие последствия для всех аспектов деятельности компании — маркетинга, финансов, клиентского сервиса. В большинстве ситуаций имеет смысл внедрять технологии работы с большими данными постепенно, в ограниченном контексте. Например, в компании может использоваться традиционная база данных, которая уже не справляется с корректным представлением данных и не масштабируется под текущее количество транзакций. В этом случае имеет смысл отказаться от традиционной базы данных и перейти на высокопроизводительную, хорошо масштабирующуюся транзакционную базу, предназначенную для работы с большими данными. Это повысит эффективность, позволит обрабатывать большее количество транзакций и, возможно, даже снизит издержки. И уже на этом фундаменте можно будет реализовывать другие проекты.
Мы говорим о компаниях, но есть ли выгода от использования Big Data для правительственных организаций и для общества в целом?
Я считаю, что большие данные — это инструмент не только для компаний, но для организаций любого типа, включая публичный сектор. Возьмем, к примеру, городскую администрацию. Мы хотим, чтобы наши города стали умными городами — более удобными для жизни, эффективными и экономически успешными. Это значит, что администрация должна знать, что точно происходит в городе: сколько воды и электричества он потребляет, сколько в городе автомобилей? Сколько людей живет в разных районах и по каким маршрутам они перемещаются? Эта информация поможет лучше организовать работу общественного транспорта. И большие данные могут стать именно той платформой, которая позволит ответить на все эти вопросы.
То же самое происходит и на более высоком уровне. Центральное правительство может использовать большие данные, чтобы лучше понимать, какие ресурсы есть у них в распоряжении, какие у людей потребности и т.п. Скажем, в некоторых странах уже поняли, что если объединить информацию из разных больниц в одну систему, то можно лучше видеть ситуацию со здравоохранением и состоянием здоровья людей в целом. Так что для правительств большие данные — это платформа, которая позволяет добиться большей прозрачности и сделать информацию доступной.
Еще один тренд, который мне очень нравится, — это «открытые данные». Это когда правительство понимает, что имеющиеся в его распоряжении данные могут быть полезны для общества и открывает доступ к ним. В этом случае не только само правительство может создавать добавленную стоимость на основе имеющейся информации, но и частные компании и даже отдельные граждане. Например, если в открытом доступе есть данные об экологической обстановке, то вы можете создать приложение, использующее эти данные, вроде карты загрязнений.
К слову, открытые данные — это теперь тренд и в Украине. Правительство постепенно открывает доступ к информации, к реестрам, для некоторых сервисов даже доступны API — например, для базы законов Верховной Рады.
Да, это длительный процесс, в том числе и для правительств. Если правительство решает открыть доступ к какой-то информации, то оно может обнаружить, что часть этой информации доступна только в виде PDF-документов, которые сначала надо преобразовать в машиночитаемый формат. Это все занимает время.
Если говорить об Украине, то часть информации, особенно 10-15-летней давности, скорее доступна только на бумаге.
В этом случае правительству необходимо сначала перевести документацию в цифровой вид. Ситуация с открытыми данными сильно отличается в каждой конкретной стране. Мы называем это «цифровой зрелостью».
Есть ли разница во внедрении технологий Big Data для разных отраслей? Например, для сельского хозяйства, телекоммуникаций и т.п.
Каждая отрасль движется по своему собственному пути. Например, сельское хозяйство — это отличный пример, потому что эта отрасль традиционно никогда не полагалась на IT. Здесь все происходит шаг за шагом, фермеры постепенно осваивают технологии. Как это происходит? Фермер покупает комбайн John Deere и понимает, что в этом комбайне есть GPS, так что он в любой момент времени точно знает, где именно в поле находится комбайн и может отследить его маршрут. В комбайне есть масса сенсоров, поэтому фермер знает, какие именно семена были посажены на этом конкретном участке поля. Со временем фермеры смогут сделать следующий шаг и использовать эти данные для анализа и повышения эффективности: как экономить воду, как экономить топливо, как улучшить условия для растений.
Другие отрасли могут двигаться к большим данным быстрее, потому что они традиционно используют большое количество данных и даже алгоритмов. В этом смысле отличным примером является страхование. Невозможно представить себе страхование без алгоритмов: как иначе рассчитывать риски для конкретных клиентов, как определять мошенничество, как предложить клиенту оптимальный страховой пакет?
В телекоме ключевым моментом является наличие инфраструктуры, состояние которой постоянно мониторится. У компании есть сеть, и за этой сетью надо следить, чтобы обеспечивать хорошее качество связи.
Так что разные отрасли демонстрируют разный уровень не только цифровой, но и аналитической зрелости. Некоторые компании способны сами разработать подход к большим данным, другим нужна помощь со стороны.
Как человек может стать специалистом по Big Data? Какие навыки для этого нужны и почему эта ниша перспективна?
Специалист по Big Data (или data scientist) сочетает три разных вида знаний. Во-первых, он должен быть специалистом по математике и статистике. Во-вторых, он должен уметь программировать. И в-третьих, но не в-последних, ему нужна бизнес-экспертиза. Разумеется, подготовка такого специалиста — это длительный процесс.
Наилучший подход — это начинать с какой-то основы. Например, если вы математик, то можно выучить языки программирования, такие как Python, Scala или R, и технологии работы с большими данными, вроде Hadoop, Spark или MongoDB. И когда такой специалист начинает работать с компаниями над реальными задачами, он постепенно приобретает понимание бизнес-процессов. Соответственно, если вы уже квалифицированный программист, то вы можете подойти к этому с другой стороны и выучить математику и статистику.
Популярность набирает и подход, когда люди из бизнеса понимают, что им необходимо работать с данными. Например, вы журналист. В последнее время появился новый тип журналистики, которую можно назвать «журналистикой данных». Хороший журналист знает, как писать статьи и как работать с информацией с определенной точки зрения. Но «журналист данных» также знает, как обрабатывать данные, чтобы находить определенные связи — связи между людьми, между компаниями, информацию, которая влияет на ваше понимание происходящих процессов. Если кого-то назначили министром, то неплохо было бы понимать, с кем этот человек связан. В результате лучшие журналисты выучили несколько техник, которые позволяют им эффективно обрабатывать большие объемы данных и находить эти связи. Это применимо и к другим отраслям.
Но вообще искать идеального специалиста по большим данным — это не лучший вариант. Найти такого человека — все равно что встретить единорога. Альтернативным решением может стать команда по работе с данными. В этой команде будут специалисты по математике, эксперты по программированию, мастера обработки данных, гуру бизнес-процессов. Подобный подход позволит создать сильную команду внутри организации.
Почему это перспективная ниша? Я уже говорил, что каждая компания в будущем будет использовать большие данные, и каждая компания будет нуждаться в специалистах, которые смогут эффективно с ними работать. Исследования McKinsey показывают, что в будущем спрос на специалистов по Big Data и менеджеров с пониманием этих технологий будет исчисляться миллионами человек. Так что это очень привлекательная ниша для тех, кто хочет в будущем получить хорошую работу. Причем эта работа не только хорошая, она еще и очень интересная, потому что на ней придется решать сложные задачи каждый день.
Какие технологии будут использоваться для работы с Big Data в будущем? Может быть, машинное обучение?
Хотя мы обычно считаем Big Data чем-то новым, на самом деле концепция далеко не нова. Некоторые технологии, которые мы используем в работе, насчитывают уже более 10 лет, например, Hadoop. Если говорить о трендах, то можно выделить несколько. Первый — это корпоративные платформы для работы с Big Data, которые удовлетворяют требованиям больших предприятий к безопасности и корпоративному управлению.
Когда Hadoop появился 10 лет назад, он в основном решал проблемы пакетного анализа данных, то есть задачи, связанные с объемом (volume). Через несколько лет появился Spark, который в основном решал задачи потоковой обработки данных (velocity). Сейчас появляются новые платформы, например, Apache Flink, который объединяет пакетную и потоковую обработку данных и тем самым устраняет сложности, которые возникают при работе с двумя платформами. Это второй тренд: появление хороших, быстрых и интегрированных решений для работы с большими данными.
Третий тренд — это машинное обучение. Уже сейчас на рынке присутствуют несколько решений: машинное обучение для Hadoop, для Spark, для Flink. Даже некоторые крупные компании создают свои решения для машинного обучения и открывают их для всех: Amazon, Google, Microsoft. В результате мы получаем конкуренцию экосистем, которые сражаются за внимание разработчиков и пользователей. Это не просто конкуренция данных, это конкуренция алгоритмов. И это означает большие сложности для компаний, делающих первые шаги в области Big Data: как выбрать правильную платформу, как понять, что лучше подходит для решения имеющихся задач? Именно поэтому всем компаниям будут нужны специалисты по большим данным и подготовленные инженеры, которые смогут сделать правильный выбор.