Что такое Data Science и зачем это нужно?
Оглавление:
Банки, сетевые магазины, разработчики софта и т. д. хотят знать, насколько эффективны применяемые модели работы, сервисы. Дать ответы на такие вопросы могут специалисты Data Science, исследующие огромные массивы данных с помощью алгоритмов машинного обучения. По статистике за 2021 год, дата-сайентист стал восьмой по востребованности профессией в IT.
Что это такое
Технологии, входящие в Data Science
Data Science — набор технологий и методик анализа больших данных, генерируемой бизнесом. Специальность включает в себя подготовку инфраструктуры к сбору информации, ее дальнейший анализ и презентацию найденных закономерностей. Благодаря дата-сайентисту руководство предприятия сможет определить, в каком направлении развивать продукт, компанию, настроить рекомендательные сервисы и т. д.
Однако нельзя дата-сайентистов смешивать с бизнес-аналитиками. Они занимаются общим делом — анализом поступающей информации, но с разных точек зрения. Для последних важнее коммерческие показатели компании (рентабельность, выручка, операционные расходы), а для Data Science — закономерности в массиве данных, которые помогут настроить алгоритм. Для обработки информации IT-специалист ставит гипотезу, разрабатывает план эксперимента, создает и обучает программу, которая найдет взаимосвязи.
Дата-сайентисты должны хорошо знать статистику, теорию вероятности, машинное обучение и оптимизацию. Благодаря этим знаниям они могут найти связь между показателями, чтобы предсказать информацию для новых объектов.
-
Python для анализа данных
-
Работа с библиотеками
-
Машинное обучение
-
Исследования и визуализация данных
-
Алгоритмы
Пример: дата-сайентист хочет выявить, сколько кофе выпьет человек в зависимости от количества часов сна. Зеленая линия на таблице — модель машинного обучения, обобщающая массив данных, а красная точка — предсказание. Зная информацию о группе людей, программа смогла правильно назвать, сколько кофе нужно Сергею, спавшему 7,5 часов.
Анализ данных и предсказание возможных результатов
Это крайне простой пример, т. к. обычно специалисты используют больше параметров. Кроме длительности сна, они добавили бы такие характеристики, как любовь к кофе, возраст, день недели и т. д.
Зачем и какому бизнесу это нужно
Области применения Data Science и алгоритмов машинного обучения
Компании обращаются к Data Science независимо от размера бизнеса. Рост спроса обусловлен тем, что предприятиям нужно анализировать огромные объемы информации, с которыми невозможно справится без помощи ИИ и дата-сайентистов. Согласно статистике от IDC и Hitachi, 78% респондентов столкнулись с увеличением потоков данных. При этом в неструктурированной, на первый взгляд, информации могут быть ценные сведения, способные повлиять на результаты бизнеса.
Data Science требуется в следующих отраслях:
- развлекательные платформы, e-commerce — настройка рекомендательных;
- медицина — предсказание болезней;
- логистика — оптимизация путей;
- финансы — скоринг, блокировка мошеннических операций;
- легкая, тяжелая промышленность — предикативная аналитика для составления графика ремонтов;
- госуправление — определение уровня занятости, преступности, доходов граждан в будущем;
- спорт — разработка стратегий, анализ шансов на победу.
Это далеко не полный список отраслей и задач. С учетом увеличения объемов поступающей информации, дата-сайентисты задействуются для решения многих вопросов. Без IT-специалистов невозможно точно определить интересы пользователей и предложить каждому человеку именно то, что ему нужно.
В качестве примера, доказывающего важность этой профессии, можно посмотреть на любой музыкальный сервис. В Apple Music, «Яндекс. Музыке», Spotify главной фишкой стали рекомендации. Если пользователь любит слушать рэп, ему никогда не предложат песни Киркорова или Доры. И подберут подходящих исполнителей, треки которых заставят человека остаться еще на 10–30 минут.
В маркетинге активно используют продуктовые матрицы, с помощью которых создают подборки товаров, способных заинтересовать клиента. Искусственный интеллект изучает действия пользователя и формирует группу вещей, закрывающую потребности конкретного клиента.
А в финансовом секторе матрицы и машинное обучение применяется для предсказания курсов валют, акций и других активов. Для решения таких задач программисты используют рекуррентные нейронные сети и LSTM, которые в комбинации способны проанализировать сложные связи между на первый взгляд разрозненными данными и выстроить корреляцию между активами. Благодаря алгоритмам компании могут автоматизировать изучение ценности финансов и автоматизировать их торговлю.
Кто такой специалист по Data Science
Образ дата-сайентиста
Это профессионал, обрабатывающий массивы данных и ищущий в них связи, закономерности, применяя алгоритмы Machine learning. Он умеет строить модели, решающие определенную бизнес-задачу.
Ею может выступать все что угодно: прогнозирование спроса на услуги такси, поиск лучшего маршрута автомобиля с учетом пробок, вероятности аварий и т. д. В зависимости от результатов исследования стоимость поездки увеличивается или уменьшается.
В банках же дата-сайентисты собирают, структурируют информацию и создают алгоритмы, помогающие менеджеру по кредиту понять, стоит ли выдавать займ конкретному человеку. И если да, то на каких условиях оформить договор.
Специалист по дата сайенсу занимается анализом данных, но, в отличие от аналитиков, он не углубляется в бизнес-составляющую задачи. Работник концентрируется на коде, который должен верно анализировать поступающую информацию и делать предсказания. Результат деятельности дата-сайентиста — модель, работающая в соответствии с техзаданием.
Чем он занимается?
Конкретный список задач Data scientist зависит от компании, т. е. сотрудник банка и сетевого розничного магазина будет заниматься решением разных вопросов. Однако для выполнения заданий независимо от специфики бизнеса IT-специалист проходит через 5 стандартных этапов:
- Сбор данных — работник берет структурированную и хаотичную информацию из разных источников, например: проприетарных систем, заранее подготовленных таблиц Excel.
- Хранение — перед обработкой массивов их необходимо отфильтровать, чтобы устранить дубли, и сохранить.
- Предобработка — выполняется предварительный анализ информации для выявления наиболее явных связей между событиями, а также прослеживаются паттерны, данные проверяются на реальность и соответствие поставленной задаче.
- Обработка — массивы изучаются с помощью искусственного интеллекта, моделей машинного обучение, алгоритмов анализа и других инструментов.
- Визуализация — найденные закономерности визуализируются в графиках, таблицах, чтобы информацию мог прочитать человек, не связанный с IT.
Пример программы, написанной дата-сайентистом
Также независимо от того, что дата-сайентисты в каждой отрасли работают по уникальным правилам, существуют черты, присущие всем областям. Опираясь на них, новички могут понять, какие hard skills необходимо развивать в первую очередь. И когда они определятся с отраслью, в которой хотели бы углубиться, начнут связывать теорию с конкретными прикладными задачами. Независимо от области специалист должен:
- правильно определить требования заказчика и понять, как их выполнить;
- собрать, изучить и разметить информацию;
- установить критерии оценки точности анализа;
- написать код, протестировать его;
- внедрить алгоритм в бизнес-процессы компании;
- сопровождать ее в ходе эксплуатации.
Обязанности
Пример вакансии на HH
Важно отметить, что в крупных компаниях часто есть целая команда дата-сайентистов, которые делят между собой обязанности. Из-за этого один сотрудник берет на себя до 2–3 задач. А в небольших стартапах специалист создает не только модели машинного обучения, но и сами базы данных.
Если обобщить, то в должностные обязанности Data scientist входят:
- использование нескольких источников информации;
- обработка поступающих данных;
- анализ поведения пользователей;
- персонализация программного обеспечения и моделирование базы клиентов;
- выявление аномалий и их изучение;
- составление отчетности.
Строго определить перечень обязанностей сложно, потому что его также определяет уровень. Дата-сайентисты, как и разработчики, инженеры, подразделяются на 3 уровня (junior, middle, senior). На каждом из них список задач отличается.
Что нужно знать?
Технологии, входящие в Data Science
Data Science — дисциплина, находящаяся на границе между алгеброй, статистикой и компьютерными технологиями. Чтобы найти работу в IT, дата-сайентист обязан хорошо:
- знать математику;
- разбираться в технологиях машинного обучения;
- уметь писать код (преимущественно на R и Python);
- работать с базами данных и разбираться в языке SQL;
- владеть инструментами для обработки больших данных (Hadoop, Spark, Hive, Kafka);
- отлаживать программный код;
- уметь пользоваться софтом для визуализации результатов (PowerPoint, Shiny/Dash, Power BI, Tableau, Qlik).
Интерфейс Power BI
Важно отметить, что Data Science — новое направление в IT, из-за чего не все работодатели четко разделяют обязанности и возможности специалистов из смежных областей. Это приводит к тому, что иногда от дата-сайентиста ждут навыков, которыми обладают инженеры Machine Learning, разработчики Database и т. д.
Специалисты уровня Senior, Middle рекомендуют новичкам искать работу в крупных компаниях, например: Ozon, Sber, которые имеют несколько команд разработчиков. Они сами создадут базу данных, подготовят инфраструктуру, чтобы дата-сайентисту не пришлось отвлекаться от выполнения своих прямых обязанностей и в срочном порядке осваивать новые технологии.
Важный аспект работы дата-сайентиста, о котором нужно сказать отдельно, — машинное обучение. Специалист должен подробно изучить 3 главных раздела этой технологии:
- Supervised Learning — программа работает с заранее изученными данными и обязана выдать уже известный результат и воспользоваться определенным методом исследования (задача регрессии, классификации и т. д.);
- Unsupervised learning — входная информация не размечена человеком, из-за чего результат и способ изучения не определены. Этот вариант применяется в случае с поиском аномалий;
- Reinforcement learning — данные не размечены, но нейросеть после каждого действия получает положительный или отрицательный. По такому принципу обучают искусственный интеллект игре в шахматы, шашки и работе в нестандартных ситуациях.
Сколько зарабатывает
Доход работников в Москве и СПб
Заработная плата дата-сайентиста зависит от уровня знаний, освоенных языков программирования, библиотек, а также опыта работы и размера компании. Сайт HeadHunter, опубликовал статистику дохода дата-сайентистов на основе размещенных вакансий:
- новички в регионах России зарабатывают от 70 тысяч рублей, а в Москве — от 100 тысяч. А средняя зарплата составляет примерно 86 тысяч;
- опытные дата-сайентисты получают 100–160 тысяч рублей;
- высококвалифицированные — от 150 до 300 тысяч.
Где искать заказы?
Начинающим дата-сайентистам сложно найти хорошую работу сразу же после завершения курсов, т. к. большинство компаний ищет сотрудников с опытом не менее 1 года. Чтобы пройти собеседование и получить должность в крупном банке или сетевом магазине, нужно собрать портфолио. Примеры для портфолио можно подготовить, работая фрилансером.
Рекомендуем искать заказы на следующих площадках:
- Fl.ru — самая большая биржа, на которой размещено более 5000 заказов из разных областей, включая Data Science;
- Kwork — здесь исполнители публикуют объявления и выполняют задания за 500 рублей (однако реальная стоимость проекта многократно увеличивается за счет покупки дополнительных услуг);
- Weblancer — старейшая биржа в России.
А тем, кто только планирует изучать Data Science, стоит выбирать онлайн-курсы, которые включают практику на предприятии, а обучение ведут практикующие специалисты. К примеру, на всех курсах LoftSchool, включая Python для начинающих, студенты выполняют сложные задания, решения которых можно добавить в портфолио.
Результаты проверяют дата-сайентисты уровня Senior, поэтому ошибок в коде точно не будет. А опытные HR помогут правильно составить кейс, который впечатлит работодателя и увеличит шансы пройти собеседование.
Пример портфолио на GitHub
Однако учебные работы и фриланс не заменят опыта разработки в крупной компании. Из-за этого рекомендуем регулярно искать стажировки и свободные должности начинающего дата-сайентиста. Благодаря постоянной помощи более опытных коллег вы сможете за 2–3 года достичь уровня Middle и увеличить доход в 1,5–2 раза.
Вакансия для Junior Data Scientist
Инструменты
Инструменты Keras
Сложно назвать все инструменты, которые могут понадобится специалисту по Data Science, т. к. выбор решений зависит от языка программирования, поставленных задач и имеющейся инфраструктуры. Наиболее распространенные из них:
- Keras — высокоуровневый API нейросетей, предоставляющий отличную библиотеку Deep Learning для Python. Преимущества этого решения заключаются в простоте изучения и совместимости с такими фреймворками, как TensorFlow, CNTK и Theano;
- Shogun — имеет много средств для выполнения машинного обучения с ориентированием на Support Vector Machines. Написан на языке программирования С++;
- Scikit-Learn — инструмент с открытым исходным кодом, использующийся для дата-майнинга и анализа больших данных. Сейчас его внедряют во многие проекты, т. к. в арсенале имеются регрессия, кластеринг, выбор модели, препроцессинг, классификация;
- Pattern — модель, который поможет настроить сбор веб-данных, анализ сетей, разобраться с машинным обучением и визуализацией результатов;
- Theano — популярный фреймворк. Его функции: совместимость с библиотекой NumPY, самоверификация, генерация динамического кода. Однако он отличается медлительностью и сложностью API;
- Cython — транслятор исходного кода на базе Pyrex, позволяющий создавать С-расширения для Python. При этом разработчики могут интегрировать IPython, Jupyter код, написанный с примененим Cython;
- SciPy — экосистема программного обеспечения для инженеров и аналитиков. Она включает в себя пакеты NumPy, IPython, Pandas и др. Используя SciPy, можно быстро выполнить сложные вычисления;
- Dask — обеспечивает параллелизм данных в аналитике. Дата-сайентист может распараллелить программный код, изменив лишь несколько строчек;
- Numba — компилятор, который работает на инфраструктуре LLVM для обработки синтаксиса Python в машинный код. Благодаря ему выполнение операций оборудованием, предназначенном для программ машинного обучения, будет значительно быстрее.
Востребованность профессии
График, показывающий увеличение числа компаний, внедряющих ИИ
Из-за роста объемов поступающей информации уже даже небольшие компании нуждаются в сотруднике, способном их обработать. Дата-сайентисты изучают огромные массивы данных и на их основе разрабатывают алгоритмы, решающие поставленные задачи: прогноз погоды, рекомендательная система, настройка поисковиков, разработка чат-ботов с искусственным интеллектом, выполнение сложных исследований.
В ходе Всемирного экономического форума, спикеры назвали Data Science одним из самых перспективных направлений в IT, востребованность которого не снизится вплоть до конца 2025 года. В феврале 2022 на HeadHunter было размещено более 700 вакансий по запросу «Data Scientist».
Важность этого направления подчеркивают стартапы, выросшие до лидеров в отрасли. К примеру: TikTok использует интеллектуальную систему рекомендаций видео, MSQRD — технологию распознавания лиц.
Data Science — сложная, но перспективная область. Рынок труда еще не переполнен опытными работниками, поэтому даже новичок может претендовать на должность в крупной компании и зарплату более 70 тысяч рублей. А дата-сайентист уровня Senior никогда не останется без работы, т. к. будет востребован не только в России, но и за рубежом.