banner

Блог

Dec 10, 2023

Как объяснить сетки данных, фабрики и облака

Исаак Саколик

Ответственный редактор InfoWorld |

Ваш генеральный директор знает, что такое база данных, и, вероятно, считает, что хранилище данных — это большое хранилище данных, используемое для отчетности и аналитики. Они мало знают о хранилищах данных NoSQL, о том, зачем им нужен кластер Spark или о том, как используются озера данных для приема структурированных и неструктурированных данных.

Руководители и бизнес-лидеры сосредотачивают внимание на ценности данных, аналитики и машинного обучения для бизнеса и меньше заботятся о базовых технологиях.

Но в этом заключается парадокс, потому что они хотят понять ценность инвестирования времени и денег в новые технологии. Попробуйте объяснить новейшие технологии управления данными, включая сетки данных, фабрики данных и распределенные облака данных, и наблюдайте, как у вашего генерального директора закружится голова.

И дело не только в генеральных директорах. Технологии обработки данных стремительно развивались с момента появления Интернета, когда основные дебаты сводились к тому, следует ли строить свое хранилище данных на основе Oracle, Microsoft или открытого исходного кода. Многие сегодняшние руководители, не связанные с ИТ, довольствуются тем, что данные находятся «в облаке» и что интеграция, качество и производительность данных являются «проблемами ИТ».

Любой, кто работает с данными, должен быть готов объяснить наиболее важные технологии и практики доступным языком. В своей книге Digital Trailblazer я рассказываю историю о том, как объяснял членам совета директоров нашего стартапа, что такое файлы cookie браузера, когда Интернет был новым. Никогда не знаешь, когда тебе передадут микрофон, чтобы ответить на технический вопрос. Реакция с помощью техноболтовни может легко сдержать или замедлить ключевые инвестиции.

Гордон Аллотт, президент и генеральный директор K3, предлагает начать с простого ответа: «Озеро данных, хранилище данных, сетка и структура — все это просто относится к общей стратегии данных компании».

Важно, чтобы ваши ответы были простыми, но зачастую этого недостаточно. Когда руководитель спрашивает меня о каком-то техническом термине, я хочу ответить на вопрос так, чтобы вызвать любопытство и задать дополнительные вопросы.

Начнем с объяснения того, что такое сетка данных. Стивен Лин, менеджер по маркетингу продуктов в Searchy, поделился этим кратким ответом: «Сетка данных — это децентрализованный подход к управлению данными, при котором несколько команд внутри компании несут ответственность за свои собственные данные, что способствует сотрудничеству и гибкости», — сказал он.

В этом определении нет сложных слов, и оно описывает проблемы, которые призваны решать сетки данных, тип решения и почему это важно.

Однако ожидайте, что вас попросят предоставить дополнительные технические подробности, особенно если руководитель уже знаком с другими технологиями управления данными. Например: «Разве хранилища данных и озера данных не должны были решить проблему управления данными?»

Этот вопрос может оказаться ловушкой, если вы ответите на него, указав технические различия между хранилищами данных, озерами и сетками. Вместо этого сосредоточьте свой ответ на бизнес-цели.

Сатиш Джаянти, соучредитель и технический директор Coalesce, предлагает следующее: «Качество данных часто влияет на точность бизнес-аналитики и принятия решений. Внедряя парадигмы сетки данных, можно повысить качество и точность данных, что приведет к повышению доверия среди предприятий к более широкому использованию данных для принятия обоснованных решений».

Мне нравится этот ответ, и я надеюсь, что руководитель захочет глубже изучить, как парадигмы сетки данных помогают улучшить качество данных. Джаянти отвечает: «Один из основных принципов — владение доменом — гарантирует, что команда, производящая данные, несет ответственность за качество и точность. Этот принцип данных как продукта гарантирует, что данные, передаваемые другим группам, являются точными, пригодными для многократного использования, самодокументированными и соответствуют высоким стандартам».

Если вы новичок в сетках данных и хотите углубиться в технические детали, я предлагаю просмотреть ключевую статью Жамака Дегани о переходе от монолитного озера данных к распределенной сетке данных.

ДЕЛИТЬСЯ