Agile Data Science - SparkML
Библиотека машинного обучения, также называемая «SparkML» или «MLLib», состоит из общих алгоритмов обучения, включая классификацию, регрессию, кластеризацию и совместную фильтрацию.
Зачем изучать SparkML для Agile?
Spark становится де-факто платформой для построения алгоритмов и приложений машинного обучения. Разработчики работают над Spark для реализации машинных алгоритмов в масштабируемой и лаконичной форме в среде Spark. На этой основе мы изучим концепции машинного обучения, его утилиты и алгоритмы. Agile всегда выбирает среду, которая обеспечивает короткие и быстрые результаты.
Алгоритмы ML
Алгоритмы ML включают в себя общие алгоритмы обучения, такие как классификация, регрессия, кластеризация и совместная фильтрация.
Характеристики
Включает в себя извлечение, преобразование, уменьшение размеров и выборку.
Трубопроводы
Конвейеры предоставляют инструменты для построения, оценки и настройки машинного обучения конвейеров.
Популярные алгоритмы
Ниже приведены несколько популярных алгоритмов -
Основная статистика
регрессия
классификация
Система рекомендаций
Кластеризация
Уменьшение размерности
Функция извлечения
оптимизация
Система рекомендаций
Система рекомендаций - это подкласс системы фильтрации информации, который ищет прогноз «рейтинга» и «предпочтения», который пользователь предлагает для данного элемента.
Система рекомендаций включает в себя различные системы фильтрации, которые используются следующим образом:
Совместная фильтрация
Он включает в себя построение модели на основе прошлого поведения, а также аналогичных решений, принятых другими пользователями. Эта конкретная модель фильтрации используется для прогнозирования элементов, в которых заинтересован пользователь.
Контентная фильтрация
Он включает в себя фильтрацию отдельных характеристик элемента, чтобы рекомендовать и добавлять новые элементы с похожими свойствами.
В наших последующих главах мы сосредоточимся на использовании системы рекомендаций для решения конкретной проблемы и улучшения эффективности прогнозирования с точки зрения гибкой методологии.