Цель курса — освоить основные темы и инструменты, позволяющие находить полезную информацию в данных и внедрять ее использование в боевое окружение.
В курсе вас научат основам анализа данных: расскажут о предобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научимся обрабатывать объемы данных, для обработки которых недостаточно одной машины. Все задачи будут проработаны на практике как на учебных, так и на реальных данных. Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний. В результате прохождения курса слушатель сможет самостоятельно реализовывать весь процесс от поиска знаний в данных до построения процесса по обработке данных в боевом окружении, будет обладать знаниями, необходимыми для изучения более сложных методов машинного обучения.
Содержание: 1. Базовые инструменты анализа данных в Python 2. Вводная в математические операции 3. Визуализация 4. Линейная регрессия 5. Логистическая регрессия 6. KNN, наивный байес 7. kMeans, EM 8. Иерархическая кластеризация, DB-Scan 9. Feature engineering 10. Поиск выбросов в данных 11. Уменьшение размерности 12. Методы оптимизации 13. Деревья решений 14. Ансамбли моделей 15. Бустинг 16. SVM, Support vector machine 17. Анализ текстовых данных 18. Анализ текстовых данных 2 19. Рекомендательные системы 20. Временные ряды 21. Latent Dirichlet Allocation 22. Нейронные сети, часть 1 23. Нейронные сети, часть 2 24. Алгоритмы на графах 25. Процесс CRISP-DM. Выбор хранилища, запросы к базе (Реляционная, нереляционная). Большие данные и параллельные вычисления 26. Vowpal Wabbit для обучения линейных моделей на одной машине 27. MapReduce на Java, Hadoop Streaming — MapReduce на Python, bash 28. Пайплайны. Способы выстроить поток задач, обеспечить выполнение. Отказоустойчивость, мониторинг 29. Слои данных для оптимизации процессов использования данных. Hive 30. Организация хранения данных для решения задач машинного обучения 31. Spark 32. Обзор решений для аналитики больших данных