Автоматизация МО - - лекция + конспект от YandexGPT
Автоматизация МО - - лекция конспект от YandexGPT
00:02 Задачи инженерии данных
• Сбор и передача данных, организация сбора данных, мониторинг и анализ работы источников данных, выявление проблем в сборе и передаче данных.
• Проектирование базы данных, организация схемы хранения данных, контроль изменений в данных, использование данных при обучении модели.
05:33 Анализ данных
• Анализ имеющихся данных, исследование признаков, конструирование новых признаков для обучения модели.
• Статистическая информация о данных, хранение данных отдельно для обучения, тестирования, валидации.
10:15 Использование данных при обучении
• Улучшение качества работы модели, учет изменений в данных, ответственность за изменение источников данных.
• Версионирование элементов решения, отслеживание изменений, оценка влияния изменений на данные, тестирование результатов на отдельных этапах.
17:53 Хранилища данных и витрины данных
• Видео обсуждает различные типы хранилищ данных, включая OLTP (транзакционные) и аналитические системы.
• OLTP системы работают с конечными пользователями, в то время как аналитические системы используются для анализа и принятия решений.
• OLTP системы хранят актуальные состояния данных, в то время как аналитические системы хранят большие объемы данных для анализа.
28:11 Медленно меняющиеся измерения
• Видео обсуждает подходы к сохранению изменений в измерениях, включая нулевой, первый, второй и третий уровни.
• Нулевой уровень предполагает, что измерения не меняются, первый уровень перезаписывает значения, второй уровень создает новую запись с обновленными данными, а третий уровень хранит версию и дату актуальности.
35:53 ETL системы
• ETL системы (Extract, Transform, Load) используются для извлечения, преобразования и загрузки данных из различных источников в хранилище данных.
• Второй подход к ETL системам набирает популярность, так как он позволяет избежать ошибок, возникающих при извлечении и сохранении данных.
37:56 Проблемы на этапе трансформации данных
• Ошибки, связанные с получением и передачей информации, сбои формирования ответа на запрос, перебои в каналах передачи данных, перебой с количеством данных.
• Оценка длительности загрузки данных и приведение их к целевой модели.
42:38 Проблемы на этапе анализа данных
• Большие массивы информации и ошибки в логике могут привести к накладным расходам и трате времени.
• Использование данных, погружение в структуру для получения информации полезной для поддержки принятия решений.
47:08 Хранилища данных
• Озёра данных - хранилище больших объемов неструктурированных данных.
• Альтернатива - дата-хаус, объединение структурированных и неструктурированных данных.
• Брокер сообщений, менеджер очередей, файловая система, объектное хранилище.
56:46 Анализ данных и управление версиями
• В видео обсуждается использование специальных контейнеров (бакетов) для хранения данных разных типов и размеров.
• Бакеты могут быть доступны только определенным пользователям или группам.
• В видео также рассматривается понятие Content Delivery Network (CDN) и его использование для быстрой доставки контента пользователям веб-сервисов.
01:00:33 Инструменты управления данными
• В видео обсуждаются инструменты для контроля версий данных, включая Data Version Control (DVC).
• DVC позволяет контролировать изменения в наборах данных, модели и эксперименты, а также создавать потоки операций для автоматизации.
• DVC также может быть использован для хранения артефактов в локальном кэше или на удаленном сервере.
01:10:36 Подключение к облачным хранилищам
• В видео демонстрируется, как настроить DVC для подключения к облачным хранилищам, таким как Google Drive.
• Это позволяет хранить данные в облаке и управлять версиями данных через DVC.
• В видео также обсуждаются возможности автоматизации с использованием DVC для запуска цепочек расчетов и публикации изменений в датасетах.
1 view
833
227
2 months ago 00:04:16 29
Деньги на бизнес от государства: как получить полмиллиона и развивать свое дело | Отзыв Saby
2 months ago 01:11:08 1
Я в ШОКЕ от ФАБРИК В КИТАЕ!
2 months ago 01:00:16 72
Эфир ““Нейросети в бизнесе: Как автоматизация контента увеличит ваши доходы“