Статья

Обзор: Оптимизация БД, паттерны Data Engineering, борьба с несбалансированными данными

Сегодняшний дайджест посвящен эффективности и качеству в IT. Разбираем кейс, где один индекс ускорил API в 300 раз, изучаем актуальные паттерны Data Engineering и современные методы работы с несбалансированными данными. Также в обзоре: неож

Коротко

  • Один индекс на поле created_at сократил время ответа API с 12 секунд до 40 миллисекунд.
  • В Data Engineering на 2026 год выделяют 8 фундаментальных архитектурных паттернов.
  • Для классификации несбалансированных данных метод SMOTE уступает современным подходам.
  • Андрей Карпати использует SVM для фильтрации научных статей по машинному обучению.
  • Исследование подтверждает пользу разнообразных, а не однотипных физических активностей.

Оптимизация баз данных

Что случилось

Типичный запрос к базе с 800 тысячами записей, включающий фильтрацию и сортировку, выполнялся 12 секунд, что делало интерфейс для менеджеров непригодным для работы.

Почему важно

Медленные запросы напрямую влияют на продуктивность сотрудников и пользовательский опыт. Такой случай — классический пример проблемы, которую можно решить грамотной настройкой базы данных, а не масштабированием инфраструктуры.

Кому важно

Бэкенд-разработчикам, DevOps-инженерам и всем, кто работает с реляционными базами данных и сталкивается с проблемами производительности.

Что делать

Анализировать медленные запросы (slow query log) и проверять наличие и эффективность индексов, особенно на полях, используемых для фильтрации (WHERE) и сортировки (ORDER BY).

Источник

Как один индекс на created_at сократил время ответа API с 12 секунд до 40 мс

Архитектура Data Engineering

Что случилось

Сформулирован набор из восьми фундаментальных паттернов проектирования, которые лежат в основе современных стеков для инженерии данных.

Почему важно

Правильная архитектура — залог устойчивости и масштабируемости data-систем. Понимание этих паттернов позволяет перейти от решения постоянных проблем («тушения пожаров») к построению надежных и предсказуемых процессов.

Кому важно

Data Engineers, архитекторам, тимлидам и всем, кто проектирует или поддерживает pipelines обработки данных.

Что делать

Изучить рекомендуемые паттерны (например, Medallion Architecture, Change Data Capture, Data Product) и оценить, насколько текущая или планируемая архитектура проектов им соответствует.

Источник

[Перевод] Паттерны проектирования в Data Engineering, которые необходимо освоить в 2026 году

Машинное обучение на несбалансированных данных

Что случилось

Традиционный метод синтетической балансировки данных SMOTE (Synthetic Minority Over-sampling Technique) признан устаревшим для многих современных задач.

Почему важно

Высокая общая точность модели на несбалансированных данных часто маскирует её полную неспособность предсказывать редкий, но критически важный класс (например, мошеннические транзакции). Использование устаревших методов ведет к некорректным результатам.

Кому важно

Data Scientist'ам, аналитикам и ML-инженерам, работающим с задачами классификации, где распределение классов неравномерно.

Что делать

Изучать и тестировать современные альтернативы, такие как алгоритмы, встроенно учитывающие дисбаланс (например, CatBoost с настройкой весов классов), или продвинутые методы аугментации данных.

Источник

Работа с несбалансированными данными: SMOTE мёртв, что работает

Инструменты для работы с наукой

Что случилось

Андрей Карпати, известный специалист в области ИИ, использует метод опорных векторов (SVM) для автоматической фильтрации и категоризации сотен ежедневно публикуемых научных статей по машинному обучению.

Почему важно

Это пример прагматичного выбора инструмента: вместо сложной нейросетевой модели для конкретной задачи классификации текста эффективно работает более простой и интерпретируемый классический алгоритм. Это напоминает о важности выбора правильного, а не самого модного инструмента.

Кому важно

Исследователям в области ML, Data Scientist'ам и разработчикам, которые сталкиваются с задачами обработки естественного языка или классификации текстов.

Что делать

Не списывать со счетов классические алгоритмы машинного обучения. При решении задач, особенно с ограниченными вычислительными ресурсами или требованием к интерпретируемости, стоит оценивать эффективность не только нейросетей, но и таких методов, как SVM или градиентный бустинг.

Источник

Почему Andrej Karpathy использует SVM в 2026 году (и вам тоже стоит)

Здоровье и продуктивность

Что случилось

Новое исследование с участием более 110 тысяч человек показало, что для снижения риска смертности важнее разнообразие физических активностей, а не только их общий объем или интенсивность.

Почему важно

Это меняет подход к рекомендациям по физической активности. Фокус смещается с простого «двигаться больше» на «двигаться по-разному», что может быть более достижимой и эффективной целью для поддержания здоровья.

Кому важно

Всем, кто заботится о своем здоровье и долголетии, а также специалистам по wellness и корпоративным программам здоровья.

Что делать

Стремиться включать в свою недельную активность разные типы нагрузок: аэробные (ходьба, бег), силовые, на растяжку и баланс, вместо того чтобы концентрироваться только на одном виде спорта.

Источник

Для здоровья полезно заниматься разнообразно

Риски и неопределенности

  • Эффективность конкретного индекса для оптимизации запроса сильно зависит от структуры данных и типов запросов, универсального решения нет.
  • Паттерны Data Engineering являются общими рекомендациями, их успешная имплементация требует глубокого понимания контекста бизнес-задач.
  • Новые методы работы с несбалансированными данными могут требовать больше вычислительных ресурсов или сложнее в настройке, чем SMOTE.
  • Применение SVM, как и любого другого алгоритма, эффективно только для определенных типов задач и данных.
  • Конкретные количественные выгоды от разнообразных физических нагрузок для разных групп населения не уточняются в источнике.

Сегодняшние материалы подчеркивают важность фундаментальных знаний и прагматичного подхода: будь то настройка индекса в БД, выбор архитектурного паттерна или алгоритма ML. Иногда простое и проверенное решение оказывается эффективнее сложного и модного.

Источники