Agile Data Science - SparkML

Библиотека машинного обучения, также называемая «SparkML» или «MLLib», состоит из общих алгоритмов обучения, включая классификацию, регрессию, кластеризацию и совместную фильтрацию.

Зачем изучать SparkML для Agile?

Spark становится де-факто платформой для построения алгоритмов и приложений машинного обучения. Разработчики работают над Spark для реализации машинных алгоритмов в масштабируемой и лаконичной форме в среде Spark. На этой основе мы изучим концепции машинного обучения, его утилиты и алгоритмы. Agile всегда выбирает среду, которая обеспечивает короткие и быстрые результаты.

Алгоритмы ML

Алгоритмы ML включают в себя общие алгоритмы обучения, такие как классификация, регрессия, кластеризация и совместная фильтрация.

Характеристики

Включает в себя извлечение, преобразование, уменьшение размеров и выборку.

Трубопроводы

Конвейеры предоставляют инструменты для построения, оценки и настройки машинного обучения конвейеров.

Популярные алгоритмы

Ниже приведены несколько популярных алгоритмов -

  • Основная статистика

  • регрессия

  • классификация

  • Система рекомендаций

  • Кластеризация

  • Уменьшение размерности

  • Функция извлечения

  • оптимизация

Система рекомендаций

Система рекомендаций - это подкласс системы фильтрации информации, который ищет прогноз «рейтинга» и «предпочтения», который пользователь предлагает для данного элемента.

Система рекомендаций включает в себя различные системы фильтрации, которые используются следующим образом:

Совместная фильтрация

Он включает в себя построение модели на основе прошлого поведения, а также аналогичных решений, принятых другими пользователями. Эта конкретная модель фильтрации используется для прогнозирования элементов, в которых заинтересован пользователь.

Контентная фильтрация

Он включает в себя фильтрацию отдельных характеристик элемента, чтобы рекомендовать и добавлять новые элементы с похожими свойствами.

В наших последующих главах мы сосредоточимся на использовании системы рекомендаций для решения конкретной проблемы и улучшения эффективности прогнозирования с точки зрения гибкой методологии.