Data Science

С этим тегом используют

IT Программирование Машинное обучение Обучение Python Аналитика Искусственный интеллект Все

119 постов сначала свежее

Denitaliano

3 года назад

Серия Производственный консалтинг

Как актуализировать НСИ?⁠⁠

Как актуализировать нормативно-справочную информацию на предприятии?

По запросу @SerLev решил расписать кейс по приведению в порядок нормативно-справочной информации (НСИ). Поделюсь этой информацией со всеми бесплатно – может кому-то пригодится в работе, может где-то сделают еще один шажок в сторону цифровизации, адептом которой я являюсь. В общем, работайте братья! //для тех, кто не хочет читать всю портянку целиком: мотайте вниз – там будет алгоритм действий.

Так сложилось исторически на постсоветских предприятиях, что НСИ по большей части на все изделия есть, есть разработанные техпроцессы, но времена на операции не актуальны вследствие разных причин. Например, для повышения ЗП рабочему, работающему на «сделке», просто увеличивали норму времени на операцию, при этом оставляя старой стоимость нормо-часа. Хотя надо было делать наоборот, но…

Или, например, увеличивали нормы времени на операции (и как следствие, увеличивали трудоемкость изготовления продукции) для обоснования высокой стоимости изделий перед госзаказчиком. Есть, конечно, предприятия, которые в своих информационных системах хранят два вида времен: одни реальные, а другие для начисления ЗП. Но сейчас не про такие предприятия рассказ.

Также в этой истории оставлю за рамками предприятия, на которых всяких внедренцев-цифровизаторов воспринимают как инфоцыган )) На таких предприятиях работают суровые специалисты, которые не верят таким инфоцыганам и просто «шлют их лесом»… Такие предприятия мне попадались преимущественно на Урале, например, в Магнитогорске )) Правда, в Челябинске на одном предприятии видел «сильно допиленную» 1С:УПП, в которой было занесено технологическое (а не только конструкторское) дерево ДСЕ (деталей и сборочных единиц) и все сборочные этапы были представлены диаграммой Ганта, к каждому подэтапу составлен сборочный комплект, и запуск в работу деталей идет этими сборочными комплектами. Ну, и вишенка на торте: поскольку вся продукция предприятия «кастомная», то сначала все НСИ рождается в PDM-системе, а потом уже передается в 1С. Это самое правильное решение для поддержания актуальности НСИ. И только так.

Вернемся к нашему рассказу про неактуальное НСИ и неправильные нормы времени в частности:

Норма времени на операцию рассчитывается по формуле: Тнв = Тшт +Тпз/n, где Тшт – норма штучного времени; Тпз – подготовительно-заключительное время; N – размер изготавливаемой партии, в шт.

Рассчитывает Тнв обычно Отдел труда и заработной платы (ОТиЗ) по старым советским справочникам, т.е. оборудование стало более высокопроизводительное, а нормы времени остались советскими. Иногда ОТиЗ (если у них есть время или кто-то в цехе недоволен нормами времени) выходит в «поля» и проводит реальные замеры Тшт, но в целом это не меняет картины на предприятии – нормы остаются в большинстве своем старыми, ибо замерить времена миллиона операций просто невозможно. Для понимания приведу пример: консоль крыла планера Ил-76 – это более 780 тыс. операций! И это всего лишь консоль – просто два крыла, а есть еще фюзеляж… А пять путевых машин, составляющих основу номенклатуры машиностроительного предприятия, – тоже почти 1 млн. операций.

Так что имеем то, что имеем: например, расточник закрывает за месяц 450-460 нормо-часов. Он конечно, ебошит как проклятый: задерживается после работы, ест на ходу, выходит в субботу на работу, но по факту он на предприятии присутствует (с вычетом обеденных и технологических перерывов) только 210-220 часов в месяц (блядь, это при 167 часах по Трудовому Кодексу!). Т.е. мы имеем в этом случае завышение норм времени как минимум в два раза! В этой статье я рассматриваю корректировку Тнв только с точки зрения приведения к достоверности, а не с точки зрения снижения ЗП расточника.

Также здесь надо отметить, что актуальное НСИ должно содержать не только верные нормы времени, но информацию на каком рабочем центре (РЦ) выполняется конкретная информация. А вот такой информации зачастую на постсоветских предприятиях нет.

И вот перед предприятием ставится задача в духе сегодняшнего времени: реализовать проект по цифровизации предприятия – внедрить систему класса APS (сокр. от англ. Advanced Planning & Scheduling – программное обеспечение для производственного планирования, главной особенностью которого является возможность построения расписания работы оборудования в рамках всего предприятия).

Т.е. необходимо построить цифровой двойник производственной системы предприятия – имитационную модель со всеми ресурсами, связями и правилами организовывания для построения оптимального расписания работы оборудования в рамках всего предприятия или проверки на модели гипотез типа «а что будет если…».

Как вы понимаете, сия имитационная модель будет основываться на НСИ предприятия, которое лежит в какой-то информационной системе (ИС), например, 1С:УПП или 1С:ERP. Какое расписание построит модель при недостоверных Тнв? Есть известное выражение в ИТ-индустрии: «Shit in – shit out», т.е. «дерьмо на входе – дерьмо на выходе». Вот…

И вот на предприятие приезжает команда цифровизаторов… На совещании у генерального директора сидят: технический директор, коммерческий директор, главный конструктор, главный технолог, начальник планово-диспетчерского отдела, начальник ИТ-службы… Цифровизаторы говорят: «Мы вам построим цифровой двойник предприятия, вы сможете управлять всеми ресурсами на новом уровне, сможет рассчитать сроки выполнения заказов, расписание работы рабочих центров (РЦ) будет построено из учета управления «узкими местами». Генеральный директор говорит: «О! Отлично!», а технический директор спрашивает: «А на каких данных вы построите сие чудо?» Цифровизаторы отвечают: «Так на ваших данных, мы их из ИС выгрузим!». И тут происходит немая сцена как у Гоголя: гендир еле сдерживает улыбку, техдир тихонько «прыскает в кулачок», главный технолог отводит глаза, главный конструктор выходит поговорить по телефону… и только начальник ИТ-службы смотрит на тебя прямо своими грустными усталыми еврейскими глазами… «На наших данных?! Ну, стройте…»

И цифровизаторы побегут строить имитационную модель, которая потом покажет «узкие места», которые вовсе, при ближайшем рассмотрении, таковыми не являются. Ну, вы помните: «Shit in – shit out».

Вот здесь мы прервем наш рассказ и перейдем к решению проблемы по актуализации НСИ.

Рассмотрим три варианта решения данной задачи:

1-й вариант (простой): На всех предприятиях сейчас уже внедрены электронные системы допуска сотрудников – АСКУД (автоматизированная Система контроля и управления доступом). В этой системе собирается информация, когда работник зашел на предприятие и когда вышел, т.е. мы знаем время фактического нахождения работника на предприятии. И так:

- шаг 1: из фактического нахождения работника на предприятии за месяц (несколько месяцев или год) вычитаем время технологических и обеденных перерывов;

- шаг 2: делаем связку «рабочий – РЦ». Эта информация есть у мастера участка – он знает какой рабочий за каким станком работает.

- шаг 3: делаем связку «рабочий – операция – РЦ». Информация «рабочий – операция» есть в ОТиЗ: по всем выполненным операция работнику начисляется ЗП, все есть в ИС.

- шаг 4: Делим суммарное время выполненных операций конкретным рабочим за месяц (несколько месяцев или год) на суммарное время его присутствия на предприятии (за минусом технологических и обеденных перерывов), получаем коэффициент приведения Тнв для конкретного РЦ

- шаг 5: Зная связку «рабочий – операция – РЦ», делим на коэффициент приведения все Тнв операций, выполняемых на данном РЦ. Получаем актуальные Тнв в первом приближении

- шаг 6: делаем замеры Тнв для нескольких операций на особо загруженных РЦ. Смотрим соотнесение с рассчитанным Тнв, делаем корректировки.

2-й вариант (сложный): Похож на Вариант 1, но более точный, но сука сложный. Надеваем на себя личину DataScientist’а: нам потребуется выгрузка из ИС факта выполнения всех операций за год по всем рабочим. Выполняем первые три шага из Варианта 1.

- шаг 4: На основе выгрузки из ИС факта выполнения всех операций за год по всем рабочим составляем управления по каждому рабочему за каждый день (будет 248 уравнений по одному рабочему – по количеству рабочих дней в году):

К1Х1 + К2Х2+ …+… КNХN = Y/Z

Где ХN – Тнв на N-ую операцию, КN – коэффициент приведения для N-ой операции, Y – суммарное время всех выполненных операций в этот день, Z – время нахождения на рабочем месте в этот день.

- шаг 5: Полученную систему из 248-ми уравнений упрощаем, исключая повторяющиеся

- шаг 6: Полученную систему из 248-ми уравнений решаем методом наименьших квадратов и получаем коэффициенты приведения для каждой операции на данном РЦ.

- шаг 7: Делим на коэффициент приведения все Тнв операций, выполняемых на данном РЦ. Так делаем по каждому рабочему/РЦ. Получаем актуальные Тнв. Пусть теперь ОТиЗ отсосёт!

3-й вариант (для случая, когда надо актуализировать не только Тнв, но и всё НСИ требует корректировки):

- шаг 1: внедряем на предприятии систему диспетчеризации через «тонкий клиент» к 1С УПП или ERP (где взять «тонкий клиент» спросите у меня – у нас дешевле всех, ну или возьмите у других ))).

- шаг 2: всем рабочим, всем РЦ, всем деталям присваиваем штрих-коды.

- шаг 3: начинаем сбор данных через ТСД (терминалы сбора данных) на которых стоит мобильное приложение («тонкий клиент»): рабочий авторизуется на РЦ считывая ТСД свой штрих-код и штрих-код РЦ, начиная операцию рабочий считывает ТСД штрих-код детали, по окончании операции рабочий снова считывает штрих-код. Таким образом в систему заносится фактическое время исполнения операции на конкретном РЦ. Время, которое потребуется на актуализацию НСИ зависит от длительности ваших производственных циклов - надо чтобы все детали прошли через все РЦ. Получаем актуальные Тнв с маршрутами и привязкой к РЦ.

И самое важное: после того как вы выбрали и согласовали с Заказчиком вариант актуализации НСИ, нужно это зафиксировать протоколом, в котором будет сказано, как вы достигаете актуальности данных, какие есть допущения при их актуализации, и что на этих данных будет построена имитационная модель. И вот тогда Заказчик уже не скажет: «А я вот не верю этим данным»!

Показать полностью

[моё] Производство Завод Data Science Нормативы Нормирование Информация Цифровизация Цифровые технологии Консалтинг Мат Длиннопост Текст

1561

Timeweb.Cloud

3 года назад

Лига математиков

Серия Математика и физика

Как воссоздать изображение всего по нескольким пикселям⁠⁠

Эта статья дает возможность познакомиться с такой методикой получения и восстановления сигнала, как Compressive Sensing.

Множество всех возможных изображений 2 на 2 с цветами, закодированными одним битом

Пространство изображений огромно, невероятно огромно, но при этом очень мало. Задумайтесь об этом на минуту. Из сетки размером всего 8 на 8 пикселей можно создать 18 446 744 073 709 551 616 различных чёрно-белых изображений. Однако из этих 18 квинтиллионов изображений очень немногие покажутся осмысленными человеческому взгляду. Большинство изображений, по сути, выглядит как QR-коды. Те, которые покажутся человеку осмысленными, принадлежат к тому множеству, которое я называю естественными изображениями. Они представляют крошечную долю пространства изображений 8 на 8. Если мы рассмотрим мегапиксельные изображения, то доля естественных изображений становится ещё меньше, почти ничтожной, однако содержит любое изображение, которое можно придумать. Так чем же эти естественные изображения так уникальны? И можем ли мы использовать эту фундаментальную разницу в собственных интересах?

Спектральное пространство

Рассмотрим два представленных ниже изображения. Оба изображения имеют размер 512 на 512 пикселя. Если вычислить гистограмму значений пикселей, то можно понять, что эти распределения идентичны. И это на самом деле так. Левое изображение такое же, как правое, только пиксели перемешаны случайным образом. Тем не менее между ними есть фундаментальное отличие. Одно выглядит как «снег» на экране старого телевизора, а другое — это лицо человека.

Слева: случайное изображение. Справа: классическое тестовое изображение женщины с тёмными волосами. Оба изображения принадлежат к пространству изображений 512 на 512

Чтобы понять фундаментальную разницу между этими изображениями, нам нужно покинуть пространство пикселей и войти в мир частотного диапазона. С точки зрения математики, преобразование Фурье — это линейное сопоставление пиксельного описания изображения с описанием в виде суммы синусов и косинусов, колеблющихся в двух измерениях. Вместо задания изображения значениями, принимаемыми каждым пикселем, мы задаём его по амплитудам каждого из составляющих его двухмерных синусов и косинусов.

Описание этих двух изображений в пространстве Фурье представлено ниже. Для отображения величины коэффициента Фурье использована логарифмическая шкала. Разница между двумя изображениями теперь очевидна. Одно имеет гораздо больше ненулевых коэффициентов Фурье, чем другое. На языке математики говорится, что естественное изображение является разреженным по базису Фурье. Именно разреженность отличает естественные изображения от случайных. Давайте же используем эту разницу с пользой для себя!

Амплитуда преобразований Фурье обоих изображений. Использована логарифмическая шкала

Воссоздание изображений по нескольким пикселям, задача с высокой степенью неопределённости

Записано всего 10% пикселей

Рассмотрим следующую ситуацию: по какой-то неизвестной причине большинство фотодатчиков камеры оказалось неисправным. Скопировав на компьютер только что сделанную фотографию своей жены (или матери, или друга), вы обнаружили, что изображение получилось таким, как показано выше. Можно ли как-то восстановить изображение?

Допустим, что мы точно знаем, какие фотодатчики исправны. Обозначив как x ∊ ℝⁿ неизвестное изображение (где n — общее количество пикселей, и мы считаем, что оно представлено в виде вектора), а как y ∊ ℝᵐ ненулевые яркости пикселей, зафиксированные датчиками, мы можем записать

Здесь C — это разреженная матрица измерений m × n. Все элементы, соответствующие неисправным фотодатчикам, равны нулю, и она содержит только m ненулевых элементов, соответствующих исправным датчикам. Следовательно, наша задача — выяснить, каким был x исходного изображения, учитывая, что мы наблюдаем только несколько его пикселей.

С точки зрения математики, это задача с высокой степенью неопределённости. У нас гораздо больше неизвестных, чем уравнений. Эта задача имеет бесконечное количество решений. Значит, вопрос сводится к тому, какое решение из бесконечного множества является тем, которое мы ищем. Естественным способом решения такой задачи было бы принятие того, что решение имеет наименьшую норму ℓ₂. Это можно формализовать как следующую задачу оптимизации:

решение которой задаётся так:

Матрица C соответствует измерениям единичных пикселей, её строки получены из единичной матрицы n × n. В такой ситуации решение задачи оптимизации не особо нам поможет, поскольку оно вернёт только повреждённое изображение (произведение матриц справа сводится к Cᵀ). Очевидно, что это нам не подходит. Но можно ли найти решение получше?

Используем разреженность в спектральном пространстве

При обсуждении уникальных особенностей естественных изображений мы увидели, что они являются разреженными в пространстве Фурье, поэтому давайте этим воспользуемся. Обозначив как Ψ отображение матрицы n × n из пространства Фурье в пространство пикселей, мы получим следующий вид уравнения измерений:

где s — преобразование Фурье x (т. е. x = Ψs). Это по-прежнему задача с высокой степенью неопределённости, но теперь у нас есть дополнительная информация о решении, которое мы ищем. Мы знаем, что оно должно быть разреженным. Введя псевдонорму ℓ₀ для s (т. е. его число ненулевых элементов), мы сможем сформулировать следующую задачу оптимизации:

К сожалению, это задача комбинаторики, очень быстро становящаяся нерешаемой. Чтобы найти её решение, потребуется проверить все возможные сочетания. К счастью в своей революционной работе 2006 года Канде et al. [1, 2] показал, что при условии разумных допущений решение изложенной выше задачи можно получить (с высокой вероятностью) при помощи решения более простой задачи:

Здесь норма ℓ₁ — это сумма абсолютных значений вектора s. Сегодня хорошо известно, что использование нормы ℓ₁ кроме превращения задачи оптимизации в выпуклую, склонно отдавать предпочтение разреженным решениям. Несмотря на свою выпуклость, эту задачу всё равно может быть достаточно сложно решить на стандартном компьютере. В дальнейшем мы используем более ослабленную версию, задаваемую следующим образом:

где λ — это задаваемый пользователем параметр, управляющий равновесием между соответствием ограничениям и необходимой разреженностью решения. Эту задачу оптимизации называют Basis Pursuit Denoising. При помощи проксимальных операторов она решается чрезвычайно быстро. Ниже представлена реализация на Julia с использованием StructuredOptimization.jl.

using StructuredOptimization
" " "
Simple implementation of basis pursuit denoising using StructuredOptimization.jl
INPUT
- - - - -
C : The measurement matrix.
Ψ : Basis in which x is assumed to be sparse.
y : Pixel measurements.
λ : (Optional) Sparsity knob.
OUTPUT
- - - - - -
x : Estimated image.
" " "
function bpdn(C, Ψ, y ; λ=0.1)
# - - > Initialize variable.
x = Variable(eltype(y), size(Ψ, 2))
# - - > Solve the compressed sensing problem.
@minimize ls(C * Ψ * x - y) + λ*norm(x, 1)
return ~x
end

Кроме того, мы можем воспользоваться тем фактом, что для спектральных преобразований произведение матрицы и вектора Ψs при помощи алгоритма быстрого преобразования Фурье можно вычислить за O(n log n) операций вместо O(n²).

using StructuredOptimization
" " "
Simple implementation of basis pursuit denoising using StructuredOptimization.jl
INPUT
- - - - -
m, n : Size of the image in both direction.
idx : Linear indices of the measured pixels.
y : Pixel measurements.
λ : (Optional) Sparsity knob.
OUTPUT
- - - - - -
x : Estimated image.
" " "
function bpdn(m, n, idx, y ; λ=0.1)
# - - > Initialize variable.
x = Variable(eltype(y), m, n)
# - - > Solve the compressed sensing problem.
@minimize ls(idct(x)[idx] - y) + λ*norm(x, 1)
return ~x
end

Хотя до сих пор мы предполагали, что Ψ является преобразованием Фурье, в этом фрагменте кода мы использовали косинусное преобразование, являющееся более эффективным преобразованием для изображений. Теперь у нас есть всё необходимое, поэтому давайте вернёмся к исходной задаче. На изображении ниже сравнивается истинное изображение с его реконструкцией при помощи ℓ₁.

Слева: оригинал изображения. Справа: изображение, воссозданное при помощи compressive sensing на основании данных всего 10% пикселей

Даже несмотря на то, что исправно работало всего 10% фотодатчиков камеры, формулировка этой задачи восстановления изображения в рамках Compressed Sensing позволяет нам воссоздать достаточно точное приближение к тому, каким было исходное изображение! Очевидно, что оно всё равно неидеально, однако учитывая обширность пространства изображений и бесконечное количество решений нашей задачи, нужно признать, что результат довольно хорош!

Заключение

Методика Compressed Sensing совершила революцию в сфере обработки сигналов. Если мы заранее знаем, что сигнал, с которым работаем, разрежен по указанному базису, то compressed sensing позволяет восстановить его по гораздо меньшему количеству сэмплов, чем предполагается по теореме выборки Найквиста-Шеннона. Кроме того, она позволяет значительно сжимать данные непосредственно на этапе получения, уменьшая таким образом необходимый объём хранилища данных. Также Compressed Sensing привела к возникновению неожиданных новых технологий, например, однопиксельной камеры, разработанной Университетом Райса, или новых техник обработки для создания визуализаций МРТ в медицине. Я не сомневаюсь, что в ближайшие несколько лет мы станем свидетелями множества новых способов применения этой методики.

Compressed sensing — это гораздо более глубокая область математики, чем можно судить по этому ознакомительному посту. Существует ещё множество не рассмотренных нами вопросов, например:

- Каково наименьшее количество необходимых измерений?

- Могут ли некоторые измерения быть информативнее других?

- Как выбирать эти измерения, имея базис Ψ?

- Существуют ли другие нормы, лучше подходящие для изображений?

Для ответа на эти вопросы потребуется гораздо больше математики, чем можно представить в посте. Если вы хотите знать больше, то крайне рекомендую изучить оригиналы статей, ссылки на которые я указал в конце. Также стоит изучить потрясающий веб-сайт Numerical Tours Габриеля Пейре или последнюю книгу Брантона и Кутца [3], а также соответствующий канал на YouTube (здесь и здесь).

Ссылки на научные работы

[1] Candès E., Romberg J., Tao T. Stable signal recovery from incomplete and inaccurate measurements. Communications on Pure and Applied mathematics. 58(8): 1207–1223. 2006.

[2] Candès E. Compressed sensing. IEEE Transactions on Information Theory. 52(4): 1289–1306. 2006.

[3] Brunton S. L. and Kutz J. N. Data-driven science and engineering: machine learning, dynamical systems, and control. Cambridge University Press, 2019.

Автор оригинала: Jean-Christophe B. Loiseau

Перевод: https://habr.com/ru/company/timeweb/blog/549024/

Показать полностью 12

[моё] Машинное обучение Программирование Data Science Длиннопост

168

176

BreadForObed

3 года назад

Искусственный интеллект

Нейрокепчук⁠⁠

Автор: vk.com/bread_for_obed

[моё] Бред на обед Data Science Кетчуп Юмор Нейронные сети

Ki1rea1

3 года назад

Урок по Машинному обучению⁠⁠

Показать полностью 1

Python IT IT юмор Машинное обучение Data Science Том и Джерри Патрик Стар

ekarma

3 года назад

Из юристов в IT. План обучения. Клич о помощи опытных камрадов. "Очередной войтивайтишник"⁠⁠

Привет, Пикабушники!

Лет 10 вас почитываю, решил все-таки зарегистрироваться.

Стою сейчас на пороге кардинальных изменений в жизни, и мне как воздух нужны советы опытных ITшников, а еще лучше - конкретно Data Scientist'ов.

Если коротко, меняю сферу деятельности, история моя ниже, а кому не интересно читать можно сразу перейти к концу поста.

Собственно, моя история:

В школьные годы единственное что любил (кроме физкультуры) это математику. И в средней, и в старшей школе. Был прекрасный педагог, домой уходил всегда с задачами повышенной сложности, так называемые "со звёздочкой". Наверное, больше нравилась даже геометрия, так как была сложнее. Алгебра работала с формулами и особых сложностей не вызывала, в то время как задачи по геометрии заставляли думать, придумывать решение. Всё остальное интереса не вызывало никакого, особенно гуманитарные направления.

Лет в 12-15 что-то там кодил. Немного, помнится в паскале экспериментировал, пробовал написать сайт на html в блокноте. Баловался всякими конструкторами типа CMS Joomla, но всё оставалось на зачаточных состояниях, потому что конечного продукта не было (задачи для которой нужен сайт, наполнение и т.д.), мне был интереснее процесс.

И так сложилось, что волею судеб я оказался на юрфаке, в прокуратуре.

Еще на первом курсе я прекрасно понимал, что попал не туда. Единственный предмет, который вызывал интерес - логика. Подпитывало это чувство еще и то, что кроме меня в группе её не понимал никто, я ведь в гуманитарий ушел. Чем дальше шла учеба тем сильнее укреплялась мысль, что повернул я не туда. Мне было скучно, не интересно, местами даже отвращение вызывало обучение. Так или иначе отступать было нельзя, так как деньги уплачены, а чем дальше идешь тем ближе такая нужная корочка.

На 3 курсе пошел работать в прокуратуру общественным помощником, чтобы посмотреть к чему меня готовят. Проработал полгода, но в первый же месяц понял, что на гос. службу и в прокуратуру в частности я не пойду. Ушел в коммерцию после 3 курса и там и остался.

Последние несколько лет занимаюсь обслуживанием бизнеса, в том числе крупного, от А до Я. Условия, казалось бы, прекрасные: высокая для моего возраста и опыта зарплата, серьезные задачи и проекты, свой кабинет, кожаное кресло и т.д. и т.п. НО!

С завидной периодичностью (а на самом деле на постоянной основе) еще с первого места работы меня одолевают мысли что занимаюсь я совсем не тем, хоть и занимаюсь хорошо. Я понимаю, что меня тянет к числам, формулам, символам, операциям.

Была даже попытка связать это всё: прошел курсы и стал членом палаты налоговых консультантов. Вроде бы логично: там цифры, расчеты, но, как оказалось, всё те же неинтересные споры просто оппонент один - ФНС.

Удовольствие в работе доставляет только какой-нибудь сложный расчет неустойки в иске, всё остальное вызывает приступы рвоты, гнев и апатию.

Любовь к математике, логике, порядку и систематизации прослеживается и в личной жизни. Мне нужно всё упорядочить, структурировать, рассчитать. Все что можно оформлено в таблицах (к которым у меня тоже какая-то нездоровая тяга).

Не раз думал всё бросить, уйти куда-нибудь, но, разумеется, ипотека, маленький ребенок ясно дают мне понять: сиди работай. И дело было скорее всего именно в "куда-нибудь".

В очередной такой приступ залипал на ютубе по какой-то теме и попал на интервью А. Хачуяна по Big Data, ох! как мне стало интересно. Начал немного копать, узнал что есть такая профессия Data scientist. Позже понял чем они +/- занимаются и меня накрыло. Ну вот же оно: тут тебе и код, и математика, и анализ, и статистика с вероятностью - бомба! К тому же, вроде как DS входит в IT и вознаграждение грамотных специалистов очень и очень конкурентное. Я продолжил собирать информацию о специальности, необходимых навыках, как мне туда попасть ("Войти в айти" как оказалось сейчас мейнстрим, но что поделать). Неоднократно взвесив все "за" и "против" было принято твердое решение во что бы то ни стало стать тем самым Data Scientist.

Накидав план самообучения из заготовок на этапе сбора информации и увидев объем, немного подкосились ноги, но мыслей сдать назад не возникло.

Мой план (большую часть брал из какого-то видео на ютубе, откуда точно не помню, источник не записал. На каждый курс есть ссылка, но правила пикабу написаны не совсем однозначно, решил не рисковать и всё что с ютуба начало судорожно вставляться видеороликами прям по тексту, потому оставил только названия источника):

1. Курс гарварда "CS50" (YouTube)

2. Python

2.1. "Основы Python и анализа данных" (Я.Практикум)

2.2. "Программирование на Python" (Stepic)

2.3. "Python: основы и применение" (Stepic)

2.4. Книга "Укус питона"

2.5. "Поколение Python": курс для начинающих" (Stepic)

2.6. "Программирование на Python" CSC (YouTube)

2.7. "Как научиться разработке на Python" Яндекс

3. Статистика:

3.1. "Статистика" (Stepic)

3.2. Несколько плейлистов StatQuest (YouTube)

4. Математика:

4.1. "Основы линейной алгебры" - 3Blue1Brown (YouTube)

4.2. "Матанализ" - 3Blue1Brown (YouTube)

4.3. "Введение в DS и машинное обучение" (Stepic)

4.4. Курс лекций mlcourse (YouTube)

5. Нейронные сети:

5.1. "Нейронные сети" (Stepic)

5.2. "Deep learning@ (dlcourse)

5.3. "Intro to Deep Learning with PyTorch" (Udacity)

6. SQL

6.1. "Интерактивный тренажер по SQL" (Stepik)

6.2. "Свободное погружение в СУБД" (Stepik)

6.3. "Практическое владение языком SQL" (sql-ex)

7. Английский

8. Практика на kaggle, сделать свой проект.

К сожалению, знакомых ITшников и тем более DS нет, потому хотелось бы выслушать мнение опытных людей по вопросам:

1. Правильно ли я представляю себе работу DS?

2. Нужно ли вносить корректировки в план обучения? (Может что лишнее, не хватает чего)?

3. Какой минимальный набор компетенций необходим чтобы работать? (Отдельно по питону, математике и т.д.).

4. На какие компании ориентироваться? Тут чуть подробнее: так как сфера скажем так для меня новая, я не особо то знаю какие-нибудь ITшные компании. Сейчас ориентируюсь на Контур. Почему? 1. Знаком с их продуктами - Фокус, Диадок, Экстерн и т.д., нравится как реализовывают их. 2. Слышал, что внутри компании для сотрудников всё очень даже хорошо; 3. Центральный офис в Екб (я тут живу); 4. Отгрохали недавно новое супер-здание)))

5. Есть ли вероятность попасть куда-то ранее освоения минимально необходимых знаний? (Наслышан, да и на практике сам лично видел, когда берут человека со склонностями и горящими глазами, обучая в процессе работы). Уточню: тут вопрос не поиска "халявы", а вопрос скорейшего и полного погружения, готов работать, а обучаться в свободное время.

Прекрасно понимаю, что передо мной на вакансию стоят сотни школьников-самоучек, студентов и т.д. И, казалось бы, кому я 26-летний юрист с семьёй нужен, но, как мне кажется у меня имеется ряд преимуществ перед вчерашними школьниками:

1. Меня не нужно "учить работать", общий стаж работы около 10 лет;

2. Не у всех есть склонности к математике и не всем это нравится, потому есть риск, что вчерашний студент выгорит и уйдет;

3. Я много работаю с бизнесом и представляю что нужно самому бизнесу, руководителю, менеджеру, бухгалтеру и т.д.;

4. У меня был не один коллектив, работать приходилось с разными людьми, везде уживался и был "своим";

5. Ненавистная профессия тоже дала полезные навыки:

5.1. сроки. Большинство деятельности завязано на процессуальных и договорных сроках, нарушать которые нельзя, отсюда привычка делать всё либо точно в срок, либо заранее, но никак не с опозданием;

5.2. ответственность. Цена ошибки может быть фатальной, отсюда максимальное качество работы

5.3. многозадачность. В нормальном (здоровом) понимании этого слова: не делать три дела одновременно (как показывают исследование это всё чушь, мозгу просто приходится многократно переключаться и разрываться между задачами), а вести много дел, проектов, задач одновременно;

5.4. исполнительность. Хотя тут скорее не профессия, а личные качества. Даже не смотря на отвращение к работе приезжаю и в выходные работать и задерживаюсь (без какого-либо принуждения), потому что есть работа и её надо работать.

P.S.

Отговаривать нет смысла, решение принято твёрдое. В своих силах уверен. Потому прошу по теме.

Отозвавшихся на клич о помощи заранее благодарю.

Показать полностью

[моё] IT Data Science Смена профессии Помощь Нужен совет Длиннопост Текст

Mastodontozaurus

3 года назад

Искусственный интеллект

Совет по поводу пути Data Scientist⁠⁠

Сейчас в рамках "Университет 2035" предлагается покрыть 50% стоимости обучения по некотрым онлайн курсам.

Давно облизываюсь по поводу DS - уж очень медленно самообразование идет и не помешала бы систематизация процесса с контролем деятельности "кураторами, наставниками, кодревьерами и прочей живностью", равно как и не хватает единомышленников в данной сфере - не с кем делиться наблюдениями, кодом, проблемами и достижениями.

Из предложенного - присмотрелся к курсам Data Scientist от Яндекс.Практикум и от СберУниверситета. Первый 8 месяцев, второй - 4.

К Яндекс.Практикуму у меня лично весьма скептическое отношение (примерно как ко всяким инфоцыганам типа БреинГикс и БоксКиллам) и отзывы там смешаные, а о ДС от СберУниверситета отзывов вообще не нашел.

Попробовал бесплатную версию Яндекс.Практикум тренажера и вводной части по питону - мне кажется, если бы я не знал питон, было бы непонятно. Ясное дело там не будут сильно углубляться в структуры данных, но как-то уж слишком все поверхностно показалось.

По СберУниверситету пишут:

Совет по поводу пути Data Scientist Обучение, Data Science, Яндекс, Вопрос, Онлайн-курсы, Инфоцыгане

первое очень похоже на стандартную проблему распознования раковых опухолей, второе, без уточнений - вообще будто постройте регрессию. Не хотелось бы за немалую сумму листики iris распределять,распознавать циферки, виды одежды и высчитывать кто выживет на Титанике. Точнее я готов очередной раз через это пройти без подключения библиотек, но не как выпускной проект, обидно было бы.

С другой стороны для подачи заявки в Школу Анализа Данных в апреле я не обладаю достаточной базой знаний и опытом.

Если кто-нибудь и присутствующих проходил курс по ДС у Яндекс.Практикум и СберУниверситета, какие ваши ощущения и отзывы?

Показать полностью 1

[моё] Обучение Data Science Яндекс Вопрос Онлайн-курсы Инфоцыгане

vikent.ru

3 года назад

Читатели VIKENT.RU

1835 год. Адольф Кетле выпускает труд: Социальная физика⁠⁠

Данная статья относится к Категории: Появление новой научной дисциплины

Адольф Кетле выпускает свой труд в двух томах: Социальная физика, или Опыт исследования о развитии человеческих способностей / Sur l'homme et le developpement de ses facultes, ou essai de physique.

Публикация вызвала острые споры, поскольку автор, опираясь на теорию вероятностей, показал, что формулы статистики позволяют обнаружить подчинённость поведения массы людей (не одного человека, а именно массы) некоторым закономерностям. Анализируя статистический материал, он получил постоянные величины, дающие количественную характеристику различных человеческих актов:

«Эта книга содержала такие разделы, как анализ рождаемости и смертности в зависимости от различных, в том числе социальных факторов, анализ продолжительности жизни людей в зависимости от профессии, образования, конфессии, возраста вступления в брак и т.п. Заключительный же раздел книги носил название «Обобщение свойств среднего человека и их анализ с точки зрения естественных и медицинских наук, философии, морали и политики». Поэтому Кетле считается творцом концепции среднего человека в терминах и подходах математической статистики. Для нас важно, что он рассматривал умственные способности и характер человека как параметры, поддающиеся измерению и характеризующие различные группы населения.

Резникова Ж. И., Интеллект и язык животных и человека. Основы когнитивной этологии, М., «Академкнига», 2005 г., с.184.

Ранее эти акты считались произвольными, зависящими лишь от Бога и воли человека...

Сам же А. Кетле исходил в интерпретации полученных результатов из концепции «среднего человека».

«Это был принципиально новый шаг: до сих пор ещё никому не приходило в голову использовать математику и статистику для отделения причины от следствия.

«Следствие пропорционально причине, - написал он и продолжил курсивом: «Чем большее число индивидуумов подвергается наблюдению, тем больше проявляются превалирующие характерные качества, физические или моральные, позволяющие выявить общие доминирующие факты, благодаря которым общество существует и сохраняется»

К 1836 году Кветеле (иное написание фамилии - Прим. И.Л. Викентьева) развил эти идеи в книге о применении теории вероятностей в «моральных и политических науках». […]

Что бы ни брался исследовать Кветеле, всюду он видел колоколообразную кривую. Почти всегда «ошибки» или отклонения от среднего послушно распределялись согласно описанному Лапласом и Гауссом нормальному закону, симметрично уменьшаясь по обе стороны от среднего значения. Эта замечательно сбалансированная упорядоченность с пиком, соответствующим среднему значению, убеждала Кветеле в правомерности его излюбленного понятия среднего человека. Оно положено в основу всех его выводов, полученных на основе статистических обследований. Например, в одном из обследований проводились измерения объема грудной клетки 5738 солдат шотландской армии. Кветеле построил кривую распределения результатов обследования и сравнил его с теоретической нормальной кривой. Они почти идеально совпали.

К этому времени уже было установлено, что нормальное распределение, описываемое формулой Гаусса, имеет широкое распространение в природе; теперь подтвердилось, что оно может быть положено в основу описания социальных явлений и физических характеристик людей. Исходя из этого, Кветеле пришел к заключению, что совпадение нормального распределения с результатами обследования шотландских солдат указывает на то, что отклонения от среднего значения, скорее всего, не отражали систематических различий в исследуемой совокупности, а носили случайный характер. Другими словами, совокупность представлялась в основном однородной, и средний солдат шотландской армии является идеальным представителем всех шотландских солдат».

П. Бернстайн, Против богов: укрощение риска, М., «Олимп-Бизнес», 2006 г., с.180.

Нужно заметить, что термин «социальная физика», использованный А. Кетле в названии своего труда, впервые предложил Огюст Конт.

Источник — портал VIKENT.RU

Дополнительные материалы

НАУЧНЫЕ ЗАДАЧИ — плейлист из 25-ти видео

Изображения в статье

Адольф Ламберт Кетле— бельгийский математик, астроном, социолог. Один из родоначальников научной статистики / Public Domain

Изображение MetsikGarden с сайта Pixaba

Показать полностью 2 1

Наука Статистика Data Science Digital Прикладная математика Социология История IT История науки Видео Длиннопост

vikent.ru

3 года назад

Ранговое распределение / кривая Джорджа Ципфа (Зипфа)⁠⁠

Данная статья относится к Категории: Теория элит

Джордж Ципф эмпирически установил, что частота использования N-го наиболее часто используемого слова в естественных языках приблизительно обратно пропорциональна числу N и была описана автором в книге: Zipf G.R., Human Behavior and the Principle of Least Effort, 1949

«Он обнаружил, что самое распространённое в английском языке слово («the») используется в десять раз чаще, чем десятое по частоте употребления слово, в 100 раз чаще, чем 100-е по частоте употребления слово, и в 1000 раз чаще, чем 1000-е по частоте употребления слово. Кроме того, было выявлено, что такая же закономерность действует для доли рынка программного обеспечения, безалкогольных напитков, автомобилей, конфет и для частоты обращений к интернет-сайтам. [...] Стало ясно, что в практически в каждой сфере деятельности быть номером один намного лучше, чем номером три или номером десять. Причём распределение вознаграждения отнюдь не равномерно, особенно в нашем опутанном различными сетями мире. А в сети Интернет ставки ещё выше. Рыночная капитализация Priceline, eBay и Amazon достигает 95% совокупной рыночной капитализации всех остальных сфер электронного бизнеса. Вне сомнений, победитель получает очень много».

Сет Годин, Идея-вирус? Эпидемия! Заставьте клиентов работать на ваш сбыт, СПб, «Питер», 2005 г., с. 28.

«Смысл этого явления состоит в том, что […] способность участников творчества входить в законченные произведения распределяется по участникам в согласии с законом произведение числа вхождений на ранг участника (на число участников с той же частотой вхождения) величина постоянная: f • r = Const. […] В ранговом списке всех участников творчества, в данном случае слов, как раз и выявляется свойство неравномерного распределения миграционной способности, а с ним и закономерность связи между количеством и качеством в творческой деятельности вообще. […]

Кроме литературных источников Ципф исследовал множество других подозрительных на ранговое распределение явлений - от распределения населения по городам до расположения инструментов на верстаке столяра, книг на столе и стеллаже ученого, повсюду натыкаясь на одну и ту же закономерность.

Независимо от Ципфа близкое распределение было вскрыто Парето при исследовании банковских вкладов, Урквартом при анализе запросов на литературу, Лоткой в анализе авторской продуктивности учёных. Даже боги Олимпа, с точки зрения их нагрузки навыкообразующими и навыкосохраняющими функциями, ведут себя по закону Ципфа.

Усилиями Прайса и его коллег, а позднее усилиями многих науковедов было выяснено, что закон Ципфа имеет прямое отношение к ценообразованию в науке.

Прайс по этому поводу пишет: «Все данные, связанные с распределением таких характеристик, как степень совершенства, полезности, продуктивности, размера подчиняются нескольким неожиданным, но простым закономерностям [...] Является ли точная форма этого распределения логарифмически нормальной или геометрической, или обратно-квадратичной или подчинена закону Ципфа, - это предмет конкретизации для каждой отдельной отрасли. То, что нам известно, состоит в констатации самого факта, что любой из этих законов распределения даёт близкие к эмпирическим результаты в каждой из исследуемых отраслей, и что такое общее для всех отраслей явление есть, видимо, результат действия одного закона». Price D., Regular Patterns in the Organisation of Science, Organon, 1965, N 2., р. 246».

Петров М.К., Искусство и наука. Пираты Эгейского моря и личность, М., «Российская политическая энциклопедия, 1995 г., с. 153-154.

Кроме этого, Джордж Ципф также установил, что наиболее часто употребляемые слова языка, существующего длительное время, короче остальных. Частое употребление «истёрло» их...

Источник — портал VIKENT.RU

Дополнительные материалы:

СТРАТЕГИИ ТВОРЧЕСТВА / КРЕАТИВА — плейлист из 14-ти видео

Изображения в статье

Изображение Tomislav Jakupec с сайта Pixabay

Показать полностью 1

Закон Парето Статистика Элита Победители Лидер Распределение Data Science Неравенство Качество Видео Длиннопост

Посты не найдены

5 6 7 8 9 10 11 12 13 14 15