075. Карьера в data science: типичные ошибки на собеседовании - Валерий Бабушкин
Вставка
- Опубліковано 18 лис 2018
- - Как найти работу в Data Science, если у тебя еще нет рабочего опыта?
- Стоит ли тратить время на kaggle?
- Какой путь должен пройти дата саентолог, чтобы стать джуниором, мидлом и сеньором?
* 21 октября 2018 г. в московском офисе Яндекса прошла встреча сообщества Open Data Science. Мы испытали новый формат: программа не была определена заранее, а составлялась по запросам аудитории.
Мы собрали больше 500 заявок от участников и ответили на самые популярные и интересные вопросы.
Валерий Бабушкин
Закончил Университет прикладных наук Карлсруэ, занимался инфракрасной спектрометрией, затем работал в банке «Открытие». Сейчас занимает должность начальника отдела инновационной аналитики и моделирования в Х5 Retail Group, одновременно является консультантом в Яндексе и приглашенным преподавателем в НИУ ВШЭ.
Посмотреть записи других докладов можно на странице мероприятия: events.yandex.ru/events/ds/21... - Наука та технологія
Лучшая пародия Сатира
🤣
Кого?
@@assaissa Сатир - пародист на ю-тубе. Он делает пародии на звёзд. Самый успешный пародист в ru сегменте.
Парню нужно в StandUp нужно выступать)
Очень тяжело заниматься data science без компьютера🤣🤣🤣
Важно ли для дата саентиста ходить в качалку?
Накачать нейроны, канешна важно
Ну а как же вы хотели?
Порой столько выносливости необходимо
всегда надо ходить в зал, к сожалению. Даже когда лень
Главное физическая активность. А выступление этого бабушки просто понты.
К качку-бруталу доверие как специалисту выше. А если он еще и мастер спорта по боксу - его авторитет непререкаем
Молодец, юмор на нужном месте! )) И узнал, и поржал смотря ролик)
Спасибо, смотрю повторно с 2020 года и теперь больше понимаю о чем речь)
Отличный оратор! Юмор, знания, очень классно!
Валерий, вас приятно слушать и трудно не согласиться с вашими выводами. Спасибо за вопросы-ответы.
В ДатаСайенсе проблемы есть. Отстуствуют процедуры найма. Кто такой ДатаСайентист? Куда его устроят? Бывают разные виды ДатаСайенс-мена, как оказывается при найме. Им нужны разные виды Сайенс-менов. Одни не подходят под другие. А чему вы учитесь тогда? Какие подвиды Саентистов есть, взаимно заменяемы ли они. Или надо искать именно такой вариант, подвид Сайентиста. На рынке неразбериха.
Неразбериха на рынке в голове у мнеджеров, которые видимо, в ДатаСайенс вообще ничего не понимают. Отсюда идут их требования найма, которые копируют HR-ы. У HR-ов в голове точно бардак. Но он взялся из головы менеджеров. Это значит, менеджеры ничего не знают о ДатаСайенс. Короче, менеджеры не гтовы к ДатаСайенс.
Отличный стендап
какой ты молодец! я про "на собеседовании должно быть то, что человек должен будет знать по работе".
а то порой вопросы в стиле "рассчитайте сферически-магического конька-горбунка в вакууме с применением всей возможной известной человечеству математики", а по факту - REST микросервисы на nodejs и express и простенькие nosql базы данных типа тарантула :-) причём ладно бы одно было подмножеством другого, ну то есть "с запасом" собеседовали...
Крутой чел. Очень спокойный, речь грамотная. Понравилось выступление)
Ну наверное для науки ещё нужна и огромная база знаний.
Отличное выступление. Как минимум, нужно хорошо кодить в питоне и SQL. Изучить вопросы статистики. На одном этом понимании можно выстроить план обучения.
Чтобы выстроить план обучения, достаточно было загуглить его и все, и не смотреть такого рода видосики)
Ох и имя
Наверное сказанное про жуна хорошо кодить питон и SQL это не просто пойти изучить эти два направления а именно быть заточенным под ds. Жду мнение бывалых.
@@Theactivebob азаза, лол. Ну-к загуглите план обучения. Мало того, что вам выдаст с десяток разных, плюс стопку инфоцыган, которые грозятся научить вас «самому правильному набору навыков, правильнее чем у других». Не говоря уже о том, что бОльшая часть найденной информации вообще помойка. Нормальный роад-мап обучения отсутствует как класс. Каждый раз как слепой котёнок, спасибо чатам и проектам типа ОДС, хоть где-то по крохам можно собрать набор и последовательность.
@@yaroslavmiroshnikov Потому что для каждого человека путь индивидуален, глядя на планы можно только смотреть какие то вещи и добавлять их в свой план. Вот у меня тоже есть план обучения на канале, но он не всем может подойти. Но кому то точно поможет.
Он 71-ый уже на Kaggle. Круто!
уже 35-ый)
@@manofsteppe179 уже 3)
398)
очень хороший стендап, рекомендую
Бабушкин мой кумир
привет всем, подскажите пожалуйста как перевести сайт kaggle на русский. Свм сайт то переводится, а вот информация в курсах нет. Помогите)
Валерий :) Крутое выступление... мотивирующее ... благодарю.
Джарохов ты ли это? Классный парень респект тебе)
ахах) точно
Он в x5 работал. У них был крупный отдел. Он хороший менеджер и умеет вдохновлять людей. Фишка в том что "большие данные" имеют сейчас спрос и хорошо продаются инвесторам и бизнесу. 20 лет назад я думал о единой базе всех хозяйственных операций всех экономических контрагентах и мне казалось это мечтой, а сейчас это пытаются внедрять и продавать потихоньку)
Все еще работаю
@@ValeriiBabushkin это Бабушкина сортировка названа в честь вас ?
@@YY-zw2ec Одно из двух. Или я в ее честь, или она в мою, третьего не дано
@@ValeriiBabushkin Валерий, здравствуйте! А есть возможность получить от вас какое-либо из домашних заданий на техлида, о которых вы упоминали? Хочется понять свой уровень чтобы не позориться на собеседовании)
@@steelrat7678 к сожалению нет, они выдаются при определенных условиях
На 14:05 человек говорит про бинарное дерево, и второе я не разобрал, гномикл? Гномиком? Напишите пожалуйста что он сказал.
Ахах прикольный чувак)
про "что необходимо для начала занятий data science?" ответ "ну... наверно необходим компьютер!" - это 5+ , повеселил прям! :-)))
как думаете: индустрия игр, бэкэнды получают "все ходы записаны" от сотен тысяч онлайн игроков, всё это в "самопальную" предобработку ну и затем в ELK stack с целью как измерения KPI (DAU, ARPDAU, Retention, etc.) так и для "инсайтов" - это уже data science или ещё недо-datascience? ;-)
Интересно, а на текущий момент всё это актуально? В частности про опыт современных джунов, до сих пор такие бестолковые?
С нейросетями так же?
Грейды зп мне кажется в разы меньше сейчас..
Это Сатир???
Что такое наука понятно, а вот что такое data индустрия не понятно. Подскажите кто знает плиз
Валерий Бабушкин - строитель
Молодец, Валера!
2:34 это было странно, что показали. Отвлекли меня
Сколько времени надо, чтобы отклироваться в дата саентолога? :-)
Сколько времени нужно чтобы выучить английский язык? кому-то полгода, кому-то два года, кто-то бросит
Чтоб что-то соображать - год. Без технического бэкграунда - 2. Плюс-минус.
4 года бакалавр + 2 года магистратура + 3 аспирантура = 9 лет минимум
@@Anton-oq3zt лол
14:44 пожалуйста донесите это до своих коллег. Android разрабов только и гоняют по алгоритмам на собесах. У нас максимальное количество объектов в списке 100 +/-. Если больше, накосячил аналитик. Фронты не работают с биг дата. Нафига это просят делать?
16:13 у меня так друг работает в банке. По устаревшей мат модели чёт там попиливает, анализирует, 250к. В других местах такая работа максимум 150 оценивается
14:51 вот бы везде так было
Возьмите на стажировку а
Я питон умею и sql, поработаю за лапшу ради опыта )))
на кабеле есть метровая маркировка
Неплохой стендап. Но над шутками надо поработать
Нужно быть более открытым)
Что такое кагл? Объясните, простыми словами, пожалуйста
Простыми словами - это сообщество людей от профи до любителей, интересующихся разными топиками в науке о данных, которые помимо знакомства с единомышленниками могут поучаствовать в различных соревнованиях на интересующий предмет, например, базы данных. Часто эти соревнования организуются известными компаниями и предлагают сообществу найти решение существующей проблемы.
Наша команда уже второй год занимается обработкой и разметкой данных, растем в этом направлении. Заинтересованных лиц просьба писать в личку
Привет! Не нашел, где личка у вас. Я заинтересован! Еще актуально?
очень хотелось бы видосик найти где было бы побольше практических применимых (не "синтетических" для обучения, а именно практики и куда и где это применили и улучшили результаты) и полезных кейзов применения Data Science, Machine Learning и т.д.
причём без вот этого универсального хайпа с нейросетками, а как в этом видео "дык а тут вообще линейной регрессии хватит", а то реально у многих бзик с нейросетями как с волшебной универсальной решалкой всего.
кстати на Kaggle часто на практике "рулил"... обычный random forest без напрягов, а не нейросетки, ну исторически были случаи когда без гемора получали отличные результаты не нейросетями, а гораздо более простыми вещами.
ua-cam.com/video/dRAwQSFsnNM/v-deo.html
На курсере есть курс от Яндекса + МФТИ. Идея хорошая, но курс устарел из за примирения Python 2. Была попытка добавить туда Python 3. Но вышло, честно не очень. Курс нуждается в переработке на Python 3.
фигня полная. чел с видео правильно говорит - охуенно чтоб джун писал работающий код. Специализация - как раз про то, чтоб прокачивать навыки в том числе заставлять работать старое легаси. Да и вообще фейспалм: на мой взгляд, курс "машинное обучение и анализ данных" не может иметь проблем с питоном вот по определению преподаваемой области. А если у проходящих курс волосы дыбом от "Module 'pandas' not found" то ну наверное стоит пойти в аналитику на PowerBI и Excel.
@@naughtrussel5787 Это ваше экспертное мнение? То есть если с временем в курсе устаревает что-то, то ничего менять не надо? Пусть качество курса снижается и дальше, подумаешь там шильдики МФТИ и Яндекса (эти организации в нашей стране уже синоним слову "качество")? Лучше пусть зарубежные компании и университеты улучшают свои курсы, а нам и так сойдёт? Будем отставать от мира и прокачивать и "заставлять работать старое легаси." )))
@@artyomboyko6329 Вы не уловили суть моего комментария, я постараюсь изложить понятнее. Первое: это - не курс про React.js 13.0, который после выхода новой мажорной версии теряет актуальность. Я ещё раз подчеркну: специализация - она про науку о данных; за 5 лет не изменились принципы функционирования линейной регрессии, центральной предельной теоремы, основания линала и прочие фундаментальные вещи. Если у вас вышла 'наука о данных 2.0' с потерей обратной совместимости, то я вам завидую. Второе: я не говорю, что менять не нужно. Я говорю о том, что время не поставило крест на специализации, она всё ещё полезна и ценна. А на некоторые неудобства следует смотреть более оптимистично - как на интересные возможности.
@@naughtrussel5787 я уловил. Я понимаю что курс содержит и теоретический материал. Но курс нужно нормально переделать на Python 3. Яркий пример - курс по C++ от тех же Яндекс + МФТИ. Ребята молодцы, допиливают его периодически, обратная связь есть. Почему нельзя актуализировать курс по Data Scientist?
@@artyomboyko6329 Так вы правильно говорите: допиливают курс по **C++**. Допиливать курс по DS - это допиливать материал по DS (а там, откровенно говоря, есть, что допиливать, не говоря уже о добавлении более актуального материала). Я оппонирую именно мнениям, что там большая проблема с питоном. Один из легендарных курсов от основателя coursera и вовсе на Octave, но ценности в нём для меня, абстрактного человека использующего питон для работы, от выбора для курса нестандартного языка отнють меньше не становится. То, что питон применяют в DS - это не значит, что DS - это про питон, или что по качеству питона в курсе про DS следует оценивать этот курс. И это не значит, что курс про DS, но не на питоне (или на старом питоне, или на псевдокоде) имеет фатальный недостаток. В данном конкретном случае, питон - проблема максимально "косметическая", и на "качественность" выпускаемых специалистов влияет незначительно. А "актуализировать курс" и вправду не помешает; ходят слухи, что готовится что-то новое.
А я перед началом любых собесед спрашиваю у кадровика, сколько денег они дают, чтобы потом не заниматься торговлей. 95% сливаются, и время экономится.
Такой молодой
Ерунда про "поехали заграницу поломав себе карьеру", зарубежный опыт это огромный плюс, им невозможно "поломать карьеру"
это зависит от того в каком возрасте и на какую позицию ехать
@@ValeriiBabushkin можешь раскрыть мысль, пожалуйста?
@@alekseyshabanov2905 это довольно подробное общение нужно, но если кратко, образ всегда побеждает реальность, если человек 10 лет строит где то успешную карьеру, затем едет и начинает почти с нуля в другой стране, зачастую из этого не получается история успеха
@@ValeriiBabushkin какой из этого вывод - если ехать, то либо джуном, либо состоявшимся специалистом без понижения в роли?
@@alekseyshabanov2905 примерно так, либо в начале карьеры, либо без значительного понижения
Таких зарплат уже нет((
Нейросети - линейная регрессия
Инфляиця по Сеньеру
Consulting
Отильтровать
1.31 не понял прикола.
Ну во-первых ничего не сходится.
Во-вторых в какой то момент человек скажет, что 250 не устроит. И что тогда ?
Нихуя не понятно но очень интересно
Видео не соответствует заявленной теме.
А без образования в ИТ стоит пробовать?
Стоит, если есть страсть
В IT да в Data science нет. В Data Science нужна ученая степень по математике минимум.
@@Anton-oq3zt По физике скорее
@@Anton-oq3zt но я знаю и без степени устраиваются успешно
@@misteranderson6058 в разработку: бэкэнд, фронтенд итд, туда можно вообще без ВО. Data Science это совершенно другая сфера.
если бы у джарахова и сатира был ребёнок
кагль... я даже не знаю, что это такое
Кстати он мс по грепплингу
да и по*уй
Вообще-то написать заливку flood fill - это не "ерунда какая-то", а вполне себе набор алгоритмов из области машинной графики: ru.m.wikipedia.org/wiki/%D0%97%D0%B0%D0%BB%D0%B8%D0%B2%D0%BA%D0%B0
С ходу самостоятельно написать что-то эффективное может быть труднее, чем заранее зазубрить красно-чёрные деревья.
Мне показалось легкой задачей на понимание рекурсии. Ерунда какая-то в этом контексте - означает ничего сложно, это не значит - бесполезно
Да, надменности ему не занимать. А юморок вообще высший класс! Классический руководитель над тупыми шутками которого смеются лизоблюды чтобы понравится начальнику.
Я только не понял почему за границей нельзя заработать?
Большие налоги, высокая аренда и стоимость жизни в целом, достаточно низкий и ощутимый стеклянный потолок. Не то чтобы нельзя заработать, но если стоит именно такая задача, то в России это сделать легче, имея уровень навыков,достаточный чтобы устроиться на работу за рубежом
@@user-dl4uf4xs4j высокая стоимость жизни оправдана высокими зарплатами
@@Game-hn6fq абсолютно верно. Поэтому сравнивать абсолюты не всегда корректно, корректно сравнивать паритет покупательской способности и что за эту высокую зарплату можно приобрести
Качество жизни как и чем сравнить? Среднего полицейского-доктора в ЕС-США и знаменитое РОВД Казани.
Конечно, это смотря куда ехать. Например, те же Штаты. Если в Вирджинии дата сайентисту платят 120 тыс в год, это оооооочень хорошая оплата. Но в Калифорнии, например, Сан-Франциско, вы на эти деньги будете жить еле-еле, но там и платят по-другому. Почти в 2 или 2.5 раза выше, чем в Вирджинии.
Я поняла, что я тупая.
не знала, что айтишники могут быть такими симпатичными и в классной физической форме. Если бы меня спросили, кого я хочу увидеть перед смертью, я бы ответила: "Бабушкина Валерия, он дата саентист. Нет, не сатанист. Дата саентист"
сообщите время и место
Из москвы может и нет смысла ехать в европу на заработки. Но не все же в москве живут. И не все хотят там жить.
Бабушка Валерин
Одной рукой показать семь минут! Это такая фишка Data caintist?
А причём тут sql с оконными функциями и группировками. Это же для аналитиков и дата инженеров
sql - это для всех, кто прикасается к БД
Не представляю, чтобы дата сайентист хоть раз, да не поработал с базами данных. Там же вся информация!
@@olesyabondar4826 в комрьютерном зрении
Мой коллега не знает оконные функции. Но у него кандидатская по эпидемиологии (сейчас нам как раз кстати). Вариантов скиллсетов может быть тысяча. В РФ, я так поняла, пока все стандартненько и мальчики все стандартненькие :)
Дядя не в теме просто.
Интересное выступление. Режет слух конечно, что нигде нельщя заработать и получайте опыт в РФ за дошик. Ну а что еще ему ответить )
В начале не понравилось выражение: "казахо-амерканский стартап ...такое странное сочетание" получается в такой тандем не может быть? В Казахстане оказывается живут в юрте и ещё могут программирование. Так что ли? Умных людей очень много хочу сказать. Или выражение "отсеить дебилов" думаю тут тоже проблемы есть. Шовинизм что ли
Да, обычный шовинист
Много понтов и заносчивости...
А в чем прикол-то? В чем отличие от разработчика баз данных например? Откуда такие зарплаты? У обычных (back-end, front-end, Android-разработчиков) уровня Middle - далеко не у всех зп 150-200. За что data-scient'истам такие деньги? В чем их уникальность? Что они должны уметь по сравнению с, скажем так, обычным программистом?
Все говорят, большие данные (big data), а примеры не приводят. Я пытался найти материалы, чтобы понять что это такое, но так и не нашел.
ua-cam.com/video/dRAwQSFsnNM/v-deo.html ua-cam.com/video/6n1Fg8IcHUs/v-deo.html примеры решаемых задач
@@ValeriiBabushkin спасибо, посмотрю
По сравнению с разработчиком баз данных - знания, охватывающие множество областей.
За что такие деньги? За матан, а именно учёную степень большинство data scientistов имеют phd в математике.
@@Anton-oq3zt Не говорите ерунды. Сколько дата сайентистов, и сколько ПХД (даже не в математике, а в любой области). 90% задач решаются спокойно без кандидатской в математике.
Не понравилось высказывание про "Совсем дибилов на собеседование" конечно, человеки, которые идут на сеньёора и не отвечают на вводы - они по умолчанию совсем дибилы. Классная выборка. Супер. А не задумывались Вы Валерий, может быть дибил - это Вы? а?
Он то не всерьез, хотя согласен, нужно было ему упомянуть, что это была шутеечка
В чем странность сочетания Казахо-американского стартапа? Надеюсь, к вам больше не обратятся
в том что обычно они Американо-Казахские, по крайней мере раньше были
Нарцисс.
Ну есть такое, да. Ну это пока молодой и здоровый.
Как будто что-то плохое!?
@@ilak6470 вы сами это сказали
американский психопат
Мне чего то не очень понравилось. Упор типа на собеседовании делается на код и базы данных, а не на математике в ДС и ее концептуальном понимании. Типа сколько там времени надо что бы хоть коряво начать писать на каком то ЯПе ? Секунд 30 до открытия мануала? Или тот SQL так же как JS нафиг не надо учить если умеешь в гугл. Подход как к собеседованию на программиста аля "А с этим фреймворком работал????".
А вот с матикой другое дело. Даже дав время и гугл что бы чел Концептуально обьяснил что то типа латентного размещения дирихле то окажется что этот отличный программист на это не способен. Пробел в матике огромен и уже не восполним (в универе не на того учился)... Так что лучше вообще спрашивать чисто по математике и пофиг знает чел какой то ЯП или нет. Особенно этот подход хорош что б отсечь "сваперов" с программирования.
@Valeriy Babushkin Ок. Я понял в чем загвоздка.
Рассмотрим, например, такие требования.
Maintain and implement tools and systems that ingest, transform, organize, and expose data insights
Collaborate with other engineers to help implement and design our next generation data warehouse system
Work together with our data scientist team to gather technical requirements and provide support on analytics processes
Develop and maintain data pipelines, with a focus on writing scalable, clean, and fault-tolerant code to handle disparate data sources
Implement new product features and performance improvements to existing products
Help drive optimization, testing and tooling to improve data quality across the product line
Exposure to Data Science
Knowledge of machine learning and natural language processing
Что тут подозрительно? То что это требования не относятся к ДС. ДС этим не занимается, ну или по крайней мере не должен заниматься. Это вакансия на Data Engineer-а. Понятно что с этим в СНГ туго и путают одно с другим, да и если ДС один то приходится все делать. Но большая разница все равно остается - кто нужен в компании программист с базовой статистикой или ДС с базовым программированием?
Вот обычные требования для ДС.
www.indeed.com/viewjob?jk=8b018cf7980a5047&tk=1cncsgf7753p4d61&from=serp&vjs=3
Разница ощутима.
@@oleksitkachenko4747 Data Scientist вообще очень плохое название должности, под которым каждый может понимать свое, но я открыл ссылку и что я увидел в требованиях:
Proficiency in using SQL with several major DBMS and DW engines.
Experience with a variety of Big Data technologies, distributed machine learning and computing frameworks (S3, Spark, Hadoop, Elasticsearch, TensorFlow, etc.).
Good scripting and programming skills in Python and UNIX shell.
Ничего не напоминает?
Если нужно исследовательская работа, то тут без глубоких познаний в теории не обойтись, только вот исследовательская работа нужно мало где, а код писать почти везде
Сваперы ?
Лучше всего открыть вакансии и посмотреть требования...Как оказалось по вышмату и связанному с ним у меня все ок. А python sql и т.д. знаний пока нет...
я когда в универ на математика поступал три года назад таким же романтиком был и на программистов смотрел свысока, типо чо эти макаки сидят там код любой дурак может написать, а вот мы математики ребята крутые. Сейчас когда я попробовал и то, и то, уже так не думаю, и даже больше склоняюсь именно к software\data engineering. Прикол в том, что в реальности практически на любой работе ты будешь делать не сильно сложные концептуально вещи, и та же математика во многом тоже monkey job, конечная цель твоей работы это приносить компании больше бабок, а не заниматься математикой ради математики
У бабушки помада на губах или че?
Такой нудный и шутки не смешные.🥴