Apache Eagle следит за использованием больших данных

Apache Eagle, первоначально разработанный на eBay, а затем переданный Apache Software Foundation, заполняет нишу безопасности больших данных, которая остается мало заполненной, если не пустой: он выявляет возможные проблемы с безопасностью и производительностью фреймворков больших данных.

Для этого Eagle использует другие компоненты Apache с открытым исходным кодом, такие как Kafka, Spark и Storm, для создания и анализа моделей машинного обучения на основе поведенческих данных кластеров больших данных.

Заглядывая изнутри

Данные для Eagle могут поступать из журналов активности для различных источников данных (HDFS, Hive, MapR FS, Cassandra) или из показателей производительности, полученных непосредственно из таких фреймворков, как Spark. Затем данные могут быть переданы потоковой структурой Kafka в систему обнаружения в реальном времени, созданную с помощью Apache Storm, или в систему обучения моделей, построенную на Apache Spark. Первые предназначены для генерации предупреждений и отчетов на основе существующих политик; последний предназначен для создания моделей машинного обучения для разработки новой политики.

Этот упор на поведение в реальном времени возглавляет список «ключевых качеств» в документации для Eagle. За ним следуют «масштабируемость», «управляемость метаданными» (что означает, что изменения в политиках развертываются автоматически при изменении их метаданных) и «расширяемость». Последнее означает, что источники данных, системы оповещения и механизмы политик, используемые Eagle, предоставляются подключаемыми модулями и не ограничиваются тем, что находится в коробке.

Поскольку Eagle была создана из существующих частей мира Hadoop, она имеет два теоретических преимущества. Во-первых, меньше изобретать колесо. Во-вторых, те, кто уже имеет опыт работы с рассматриваемыми предметами, будут в выигрыше.

Чем заняты мои люди?

Помимо вышеупомянутых вариантов использования, таких как анализ производительности заданий и мониторинг аномального поведения, Eagle также может анализировать поведение пользователей. Речь идет, скажем, не об анализе данных из веб-приложения, чтобы узнать о публичных пользователях приложения, а о пользователях самой инфраструктуры больших данных - о людях, создающих и управляющих серверной частью Hadoop или Spark. Включен пример того, как запустить такой анализ, и его можно развернуть как есть или изменить.

Eagle также позволяет классифицировать доступ к данным приложений по уровням чувствительности. Только приложения HDFS, Hive и HBase могут использовать эту функцию прямо сейчас, но ее взаимодействие с ними дает модель того, как можно классифицировать другие источники данных.

Давайте держать это под контролем

Поскольку фреймворки больших данных быстро развиваются, было сложно создать вокруг них надежную защиту. Предпосылка Eagle заключается в том, что он может предоставлять анализ и оповещения на основе политик в качестве возможного дополнения к другим проектам, таким как Apache Ranger. Ranger обеспечивает аутентификацию и контроль доступа в Hadoop и связанных с ним технологиях; Eagle дает вам некоторое представление о том, что люди делают, когда им разрешают войти внутрь.

Самый большой вопрос, стоящий над будущим Eagle - да, даже на этом этапе - заключается в том, в какой степени поставщики Hadoop будут элегантно внедрять его в свои существующие дистрибутивы или использовать свои собственные предложения по безопасности. Безопасность и управление данными долгое время были одними из тех недостающих элементов, за которые могли бы конкурировать коммерческие предложения.