nlothik | Набрали, блин, по объявлениям

Нарисовали тут граждане аналитики скриптов на R — финансовые данные обрабатывать. Всё бы ничего, только на их лаптопах оно летает, а в продакшене скрипт встаёт колом.

Ну ладно, говорю, давайте посмотрим, в чём разница. Разница нашлась быстро.

Поджигаем скрипт — он радостно стартует, бодро грузит в память 40 с лихером гигабайт данных, а потом начинает долго и вдумчиво делать всякую фигню.

Открываю диспетчер задач. Смотрю… ага.

Гляжу в книгу — вижу фигу: из 64 ядер скрипт бодро молотит ОДНО ядро. Остальные 63 стоят вокруг, жуют сено, и курят бамбук.

Потому что про многонитевость и многопроцессность товарищ финансовый аналитик, как выясняется, слышит впервые в жизни.

На ноутбуке у него — AMD «Рязань» с турбочастотой 5.1 ГГц. А в продакшене, извините, ядер-то хоть отбавляй, но они попроще лицом будут, и на 2 ГГц.

Разработчик винит железо.
Я виню разработчика.

Потому что в 2026 году писать однопоточный процесс — это не просто западло, а тупизна со взломом.

Вот так и живём. Пойду писать грозное письмо проджект-лиду. Пусть он им в команду хоть одного погромиста с реальной степенью в CS вкрутит, иначе они продолжат выдавать херню на гора. Таких дундуков даже ИИ не спасает.

Permalink to this post

Flat | Top-Level Comments Only

From:

nlothik

R вполне себе поддерживает параллелизм "из коробки". Но не все разработчики поддерживают чтение документации :)))

man_of_motley

Он там такой, на уровне control flow. С R проблема что там много тяжелых операций над большими объемами идут в виде вызова функции, причем чего-нибудь из библиотеки, причем стороннего производителя. И doParallel туда не спускается. То есть тут скорее оптимизация будет какая-то аналитическая/алгоритмическая - по возможности бить всю огромную цепочку на небольшие кусочки которые при желании хоть отдельными программами с передачей данных через файлики можно делать.

Особенно весело если серии данных привязаны ко времени/имеют скрытую казуацию или корреляцию к старым данным (типа истории цен рыночных с точки зрения технического анализа), тогда сегментацией будет не так просто сделать. Грубо говоря как если им надо экспоненциальное скользящее среднее взять по большому массиву - оно ведь зависит от предыдущих данных так что хер ты его посчитаешь по сегментами, в отличие от обычного скользящего среднего. А это самый простой пример из того яоя который там есть.

Ну, это само собой — не все вычисления возможно распараллелить. Где, как ты заметил, каждое вычисление в звене цепи зависят от предыдущего звена, что-то параллелить это дохлый номер, не получится. Или не имеет смысла — там, где идёт тяжёлое IO, например. Но они не параллелят даже то, что можно параллелить.

Edited Date: 2026-01-30 03:36 pm (UTC)

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Multithreaded Branching Logic Blog

Набрали, блин, по объявлениям

Navigation

Набрали, блин, по объявлениям

no subject

no subject

no subject

Profile

March 2026

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags