Статья
Обзор: Оптимизация БД, паттерны Data Engineering, борьба с несбалансированными данными
Сегодняшний дайджест посвящен эффективности и качеству в IT. Разбираем кейс, где один индекс ускорил API в 300 раз, изучаем актуальные паттерны Data Engineering и современные методы работы с несбалансированными данными. Также в обзоре: неож
Коротко
- Один индекс на поле created_at сократил время ответа API с 12 секунд до 40 миллисекунд.
- В Data Engineering на 2026 год выделяют 8 фундаментальных архитектурных паттернов.
- Для классификации несбалансированных данных метод SMOTE уступает современным подходам.
- Андрей Карпати использует SVM для фильтрации научных статей по машинному обучению.
- Исследование подтверждает пользу разнообразных, а не однотипных физических активностей.
Оптимизация баз данных
Что случилось
Типичный запрос к базе с 800 тысячами записей, включающий фильтрацию и сортировку, выполнялся 12 секунд, что делало интерфейс для менеджеров непригодным для работы.
Почему важно
Медленные запросы напрямую влияют на продуктивность сотрудников и пользовательский опыт. Такой случай — классический пример проблемы, которую можно решить грамотной настройкой базы данных, а не масштабированием инфраструктуры.
Кому важно
Бэкенд-разработчикам, DevOps-инженерам и всем, кто работает с реляционными базами данных и сталкивается с проблемами производительности.
Что делать
Анализировать медленные запросы (slow query log) и проверять наличие и эффективность индексов, особенно на полях, используемых для фильтрации (WHERE) и сортировки (ORDER BY).
Источник
Как один индекс на created_at сократил время ответа API с 12 секунд до 40 мс
Архитектура Data Engineering
Что случилось
Сформулирован набор из восьми фундаментальных паттернов проектирования, которые лежат в основе современных стеков для инженерии данных.
Почему важно
Правильная архитектура — залог устойчивости и масштабируемости data-систем. Понимание этих паттернов позволяет перейти от решения постоянных проблем («тушения пожаров») к построению надежных и предсказуемых процессов.
Кому важно
Data Engineers, архитекторам, тимлидам и всем, кто проектирует или поддерживает pipelines обработки данных.
Что делать
Изучить рекомендуемые паттерны (например, Medallion Architecture, Change Data Capture, Data Product) и оценить, насколько текущая или планируемая архитектура проектов им соответствует.
Источник
[Перевод] Паттерны проектирования в Data Engineering, которые необходимо освоить в 2026 году
Машинное обучение на несбалансированных данных
Что случилось
Традиционный метод синтетической балансировки данных SMOTE (Synthetic Minority Over-sampling Technique) признан устаревшим для многих современных задач.
Почему важно
Высокая общая точность модели на несбалансированных данных часто маскирует её полную неспособность предсказывать редкий, но критически важный класс (например, мошеннические транзакции). Использование устаревших методов ведет к некорректным результатам.
Кому важно
Data Scientist'ам, аналитикам и ML-инженерам, работающим с задачами классификации, где распределение классов неравномерно.
Что делать
Изучать и тестировать современные альтернативы, такие как алгоритмы, встроенно учитывающие дисбаланс (например, CatBoost с настройкой весов классов), или продвинутые методы аугментации данных.
Источник
Работа с несбалансированными данными: SMOTE мёртв, что работает
Инструменты для работы с наукой
Что случилось
Андрей Карпати, известный специалист в области ИИ, использует метод опорных векторов (SVM) для автоматической фильтрации и категоризации сотен ежедневно публикуемых научных статей по машинному обучению.
Почему важно
Это пример прагматичного выбора инструмента: вместо сложной нейросетевой модели для конкретной задачи классификации текста эффективно работает более простой и интерпретируемый классический алгоритм. Это напоминает о важности выбора правильного, а не самого модного инструмента.
Кому важно
Исследователям в области ML, Data Scientist'ам и разработчикам, которые сталкиваются с задачами обработки естественного языка или классификации текстов.
Что делать
Не списывать со счетов классические алгоритмы машинного обучения. При решении задач, особенно с ограниченными вычислительными ресурсами или требованием к интерпретируемости, стоит оценивать эффективность не только нейросетей, но и таких методов, как SVM или градиентный бустинг.
Источник
Почему Andrej Karpathy использует SVM в 2026 году (и вам тоже стоит)
Здоровье и продуктивность
Что случилось
Новое исследование с участием более 110 тысяч человек показало, что для снижения риска смертности важнее разнообразие физических активностей, а не только их общий объем или интенсивность.
Почему важно
Это меняет подход к рекомендациям по физической активности. Фокус смещается с простого «двигаться больше» на «двигаться по-разному», что может быть более достижимой и эффективной целью для поддержания здоровья.
Кому важно
Всем, кто заботится о своем здоровье и долголетии, а также специалистам по wellness и корпоративным программам здоровья.
Что делать
Стремиться включать в свою недельную активность разные типы нагрузок: аэробные (ходьба, бег), силовые, на растяжку и баланс, вместо того чтобы концентрироваться только на одном виде спорта.
Источник
Для здоровья полезно заниматься разнообразно
Риски и неопределенности
- Эффективность конкретного индекса для оптимизации запроса сильно зависит от структуры данных и типов запросов, универсального решения нет.
- Паттерны Data Engineering являются общими рекомендациями, их успешная имплементация требует глубокого понимания контекста бизнес-задач.
- Новые методы работы с несбалансированными данными могут требовать больше вычислительных ресурсов или сложнее в настройке, чем SMOTE.
- Применение SVM, как и любого другого алгоритма, эффективно только для определенных типов задач и данных.
- Конкретные количественные выгоды от разнообразных физических нагрузок для разных групп населения не уточняются в источнике.
Сегодняшние материалы подчеркивают важность фундаментальных знаний и прагматичного подхода: будь то настройка индекса в БД, выбор архитектурного паттерна или алгоритма ML. Иногда простое и проверенное решение оказывается эффективнее сложного и модного.
Источники
- Главные признаки дипломированных шарлатанов английского языка
Мы живём в эпоху сплошного фальсификата, имитации и тотального обмана. Когда вам продают медное кольцо по цене золотого, это называется мошенничество. Предприимчивых и дипломированных "учителей" английского, которые в своё время сами у разн
- Для здоровья полезно заниматься разнообразно
Совсем свежее исследование, январь 2026. https://pubmed.ncbi.nlm.nih.gov/41574252/ и Physical activity types, variety, and mortality: results from two prospective cohort studies. 70 725 женщин и 40 742 мужчин. Подбирали тех кто максимально
- Я написал компилятор на C++ при помощи LLVM (2)
GitHub Из прошлой статьи мы знаем, что я разрабатываю свой компилятор - Onyx. С того момента язык активно развивался, теперь он поддерживает: Читать далее
- [Перевод] Паттерны проектирования в Data Engineering, которые необходимо освоить в 2026 году
Настоящая устойчивость систем — в архитектуре. В новом переводе от команды Spring АйО — 8 фундаментальных паттернов проектирования, на которых держатся все современные data engineering-стеки. Освоив их, вы перестанете тушить пожары и начнёт
- Как я написал TTS-движок на Rust за месяц: путь от Python к production-ready решению
Что будет, если выкинуть Python-обвязку и сделать TTS по-взрослому? Я взял Qwen3-TTS и за месяц собрал RustTTS: компактный бинарник, быстрый старт, стриминг и контролируемый инференс без “venv на 2 ГБ”. Покажу, как устроен пайплайн (text →
- Как один индекс на created_at сократил время ответа API с 12 секунд до 40 мс
«Страница заказов грузится вечность», — такой тикет прилетел в понедельник утром. На проде 800 тысяч записей, а типичный запрос с фильтрацией и сортировкой заставлял менеджеров ждать по 12 секунд. В этой статье разберем, почему стандартный
- Полезные инструменты для работы с bag файлами в ROS2
В этой статье я расскажу о полезных инструментах для работы с bag файлами в ROS2. ... ros2_unbag Инструмент для экспорта файлов в удобный для человека формат Позволяет извлекать данные топиков из .db3 or .mcap bag файлов в форматы такие как
- Почему Andrej Karpathy использует SVM в 2026 году (и вам тоже стоит)
На arXiv каждый день публикуются сотни статей по машинному обучению. Читать всё — нереально, а пропустить что-то важное — обидно. Andrej Karpathy, бывший Director of AI в Tesla и соавтор курса Stanford CS231n, решил эту проблему неожиданным
- Обзор книги «Теория игр. Искусство стратегического мышления в бизнесе и жизни», Авинаш Диксит и Барри Дж. Нейлбафф
Наши действия влияют на действия других. А теперь самое интересное — их реакция должна определять наш первый шаг. Как такое возможно? Проблема в том, что чем рациональнее человек рассуждает, тем чаще попадает в ловушки. Можно ли так менять
- Работа с несбалансированными данными: SMOTE мёртв, что работает
Бывали у вас датасеты, где класс «1» встречается в 100 раз реже класса «0»? У меня — постоянно. Модель радуется высокой точности, а на деле совершенно промахивается по редкому классу. Давайте обсудим, почему старый добрый SMOTE уже не торт,