Loftschool школа онлайн обучения IT профессиям
Профессии
  • Веб-разработчик
  • Frontend разработчик
  • Backend разработчик
  • Full Stack разработчик
  • Интернет-маркетолог
  • Android-разработчик
  • UX/UI Дизайнер
Курсы
          • Основы вёрстки
          • Веб для начинающих
          • JavaScript
          • Vue.js
          • React.js
          • Node.js
          • PHP
          • Контекстная реклама
          • SMM
          • SEO для всех
          • Android: базовый
          • Android: продвинутый
          • UX/UI-дизайн: базовый
          • UX/UI-дизайн: PRO
          • Python для начинающих
          • Python: машинное обучение
        Профессия Дизайнер со скидкой
        -20%
        До конца акции:
        15
        00
        44
        Дней
        Часов
        Минут
        • Главная
        • Блог
        • Статьи
        • Что такое Data Science и зачем это нужно?
        Полезный блог
        Статьи
        Опубликовано 22.12.2022 11:56

        Что такое Data Science и зачем это нужно?

        Что такое Data Science и зачем это нужно

        Оглавление:

          1. Что это такое
          2. Зачем и какому бизнесу это нужно
          3. Кто такой специалист по Data Science
          4. Чем он занимается?
          5. Обязанности
          6. Что нужно знать?
          7. Сколько зарабатывает
          8. Где искать заказы?
          9. Инструменты
          10. Востребованность профессии

        Банки, сетевые магазины, разработчики софта и т. д. хотят знать, насколько эффективны применяемые модели работы, сервисы. Дать ответы на такие вопросы могут специалисты Data Science, исследующие огромные массивы данных с помощью алгоритмов машинного обучения. По статистике за 2021 год, дата-сайентист стал восьмой по востребованности профессией в IT.

        Что это такое

        Технологии, входящие в Data Science

        Технологии, входящие в Data Science

        Data Science — набор технологий и методик анализа больших данных, генерируемой бизнесом. Специальность включает в себя подготовку инфраструктуры к сбору информации, ее дальнейший анализ и презентацию найденных закономерностей. Благодаря дата-сайентисту руководство предприятия сможет определить, в каком направлении развивать продукт, компанию, настроить рекомендательные сервисы и т. д.

        Однако нельзя дата-сайентистов смешивать с бизнес-аналитиками. Они занимаются общим делом — анализом поступающей информации, но с разных точек зрения. Для последних важнее коммерческие показатели компании (рентабельность, выручка, операционные расходы), а для Data Science — закономерности в массиве данных, которые помогут настроить алгоритм. Для обработки информации IT-специалист ставит гипотезу, разрабатывает план эксперимента, создает и обучает программу, которая найдет взаимосвязи. 

        Дата-сайентисты должны хорошо знать статистику, теорию вероятности, машинное обучение и оптимизацию. Благодаря этим знаниям они могут найти связь между показателями, чтобы предсказать информацию для новых объектов.

        Python: анализ данных и машинное обучение
        За 7 недель Вы освоите Python и библиотеки языка для анализа данных, научитесь работать с нейронными сетями и машинным обучением, получите первый проект в портфолио. Можно проходить с нулевым опытом.
        • Python для анализа данных
        • Работа с библиотеками
        • Машинное обучение
        • Исследования и визуализация данных
        • Алгоритмы
        Записаться

        Пример: дата-сайентист хочет выявить, сколько кофе выпьет человек в зависимости от количества часов сна. Зеленая линия на таблице — модель машинного обучения, обобщающая массив данных, а красная точка — предсказание. Зная информацию о группе людей, программа смогла правильно назвать, сколько кофе нужно Сергею, спавшему 7,5 часов.

        Анализ данных и предсказание возможных результатов

        Анализ данных и предсказание возможных результатов

        Это крайне простой пример, т. к. обычно специалисты используют больше параметров. Кроме длительности сна, они добавили бы такие характеристики, как любовь к кофе, возраст, день недели и т. д. 

        Зачем и какому бизнесу это нужно

        Области применения Data Science и алгоритмов машинного обучения

        Области применения Data Science и алгоритмов машинного обучения

        Компании обращаются к Data Science независимо от размера бизнеса. Рост спроса обусловлен тем, что предприятиям нужно анализировать огромные объемы информации, с которыми невозможно справится без помощи ИИ и дата-сайентистов. Согласно статистике от IDC и Hitachi, 78% респондентов столкнулись с увеличением потоков данных. При этом в неструктурированной, на первый взгляд, информации могут быть ценные сведения, способные повлиять на результаты бизнеса.

        Data Science требуется в следующих отраслях:

            • развлекательные платформы, e-commerce — настройка рекомендательных;
            • медицина — предсказание болезней;
            • логистика — оптимизация путей;
            • финансы — скоринг, блокировка мошеннических операций;
            • легкая, тяжелая промышленность — предикативная аналитика для составления графика ремонтов;
            • госуправление — определение уровня занятости, преступности, доходов граждан в будущем;
            • спорт — разработка стратегий, анализ шансов на победу.

        Это далеко не полный список отраслей и задач. С учетом увеличения объемов поступающей информации, дата-сайентисты задействуются для решения многих вопросов. Без IT-специалистов невозможно точно определить интересы пользователей и предложить каждому человеку именно то, что ему нужно. 

        В качестве примера, доказывающего важность этой профессии, можно посмотреть на любой музыкальный сервис. В Apple Music, «Яндекс. Музыке», Spotify главной фишкой стали рекомендации. Если пользователь любит слушать рэп, ему никогда не предложат песни Киркорова или Доры. И подберут подходящих исполнителей, треки которых заставят человека остаться еще на 10–30 минут.

        В маркетинге активно используют продуктовые матрицы, с помощью которых создают подборки товаров, способных заинтересовать клиента. Искусственный интеллект изучает действия пользователя и формирует группу вещей, закрывающую потребности конкретного клиента.

        А в финансовом секторе матрицы и машинное обучение применяется для предсказания курсов валют, акций и других активов. Для решения таких задач программисты используют рекуррентные нейронные сети и LSTM, которые в комбинации способны проанализировать сложные связи между на первый взгляд разрозненными данными и выстроить корреляцию между активами. Благодаря алгоритмам компании могут автоматизировать изучение ценности финансов и автоматизировать их торговлю.

         

        Кто такой специалист по Data Science

        Образ дата-сайентиста

        Образ дата-сайентиста

        Это профессионал, обрабатывающий массивы данных и ищущий в них связи, закономерности, применяя алгоритмы Machine learning. Он умеет строить модели, решающие определенную бизнес-задачу. 

        Ею может выступать все что угодно: прогнозирование спроса на услуги такси, поиск лучшего маршрута автомобиля с учетом пробок, вероятности аварий и т. д. В зависимости от результатов исследования стоимость поездки увеличивается или уменьшается.

        В банках же дата-сайентисты собирают, структурируют информацию и создают алгоритмы, помогающие менеджеру по кредиту понять, стоит ли выдавать займ конкретному человеку. И если да, то на каких условиях оформить договор.

        Специалист по дата сайенсу занимается анализом данных, но, в отличие от аналитиков, он не углубляется в бизнес-составляющую задачи. Работник концентрируется на коде, который должен верно анализировать поступающую информацию и делать предсказания. Результат деятельности дата-сайентиста — модель, работающая в соответствии с техзаданием.

        Чем он занимается?

        Конкретный список задач Data scientist зависит от компании, т. е. сотрудник банка и сетевого розничного магазина будет заниматься решением разных вопросов. Однако для выполнения заданий независимо от специфики бизнеса IT-специалист проходит через 5 стандартных этапов:

            1. Сбор данных — работник берет структурированную и хаотичную информацию из разных источников, например: проприетарных систем, заранее подготовленных таблиц Excel.
            2. Хранение — перед обработкой массивов их необходимо отфильтровать, чтобы устранить дубли, и сохранить.
            3. Предобработка — выполняется предварительный анализ информации для выявления наиболее явных связей между событиями, а также прослеживаются паттерны, данные проверяются на реальность и соответствие поставленной задаче.
            4. Обработка — массивы изучаются с помощью искусственного интеллекта, моделей машинного обучение, алгоритмов анализа и других инструментов.
            5. Визуализация — найденные закономерности визуализируются в графиках, таблицах, чтобы информацию мог прочитать человек, не связанный с IT.

         

        Пример программы, написанной дата-сайентистом

        Пример программы, написанной дата-сайентистом

        Также независимо от того, что дата-сайентисты в каждой отрасли работают по уникальным правилам, существуют черты, присущие всем областям. Опираясь на них, новички могут понять, какие hard skills необходимо развивать в первую очередь. И когда они определятся с отраслью, в которой хотели бы углубиться, начнут связывать теорию с конкретными прикладными задачами. Независимо от области специалист должен:

            • правильно определить требования заказчика и понять, как их выполнить;
            • собрать, изучить и разметить информацию;
            • установить критерии оценки точности анализа;
            • написать код, протестировать его;
            • внедрить алгоритм в бизнес-процессы компании;
            • сопровождать ее в ходе эксплуатации.

        Обязанности

         

        Пример вакансии на HH

        Пример вакансии на HH

        Важно отметить, что в крупных компаниях часто есть целая команда дата-сайентистов, которые делят между собой обязанности. Из-за этого один сотрудник берет на себя до 2–3 задач. А в небольших стартапах специалист создает не только модели машинного обучения, но и сами базы данных. 

        Если обобщить, то в должностные обязанности Data scientist входят:

        • использование нескольких источников информации;
        • обработка поступающих данных;
        • анализ поведения пользователей;
        • персонализация программного обеспечения и моделирование базы клиентов;
        • выявление аномалий и их изучение;
        • составление отчетности.

        Строго определить перечень обязанностей сложно, потому что его также определяет уровень. Дата-сайентисты, как и разработчики, инженеры, подразделяются на 3 уровня (junior, middle, senior). На каждом из них список задач отличается. 

        Что нужно знать?

        Технологии, входящие в Data Science

        Технологии, входящие в Data Science

        Data Science — дисциплина, находящаяся на границе между алгеброй, статистикой и компьютерными технологиями. Чтобы найти работу в IT, дата-сайентист обязан хорошо:

        • знать математику;
        • разбираться в технологиях машинного обучения;
        • уметь писать код (преимущественно на R и Python);
        • работать с базами данных и разбираться в языке SQL;
        • владеть инструментами для обработки больших данных (Hadoop, Spark, Hive, Kafka);
        • отлаживать программный код;
        • уметь пользоваться софтом для визуализации результатов (PowerPoint, Shiny/Dash, Power BI, Tableau, Qlik).

        Интерфейс Power BI

        Интерфейс Power BI

        Важно отметить, что Data Science — новое направление в IT, из-за чего не все работодатели четко разделяют обязанности и возможности специалистов из смежных областей. Это приводит к тому, что иногда от дата-сайентиста ждут навыков, которыми обладают инженеры Machine Learning, разработчики Database и т. д. 

        Специалисты уровня Senior, Middle рекомендуют новичкам искать работу в крупных компаниях, например: Ozon, Sber, которые имеют несколько команд разработчиков. Они сами создадут базу данных, подготовят инфраструктуру, чтобы дата-сайентисту не пришлось отвлекаться от выполнения своих прямых обязанностей и в срочном порядке осваивать новые технологии.

        Важный аспект работы дата-сайентиста, о котором нужно сказать отдельно, — машинное обучение. Специалист должен подробно изучить 3 главных раздела этой технологии:

        • Supervised Learning — программа работает с заранее изученными данными и обязана выдать уже известный результат и воспользоваться определенным методом исследования (задача регрессии, классификации и т. д.);
        • Unsupervised learning — входная информация не размечена человеком, из-за чего результат и способ изучения не определены. Этот вариант применяется в случае с поиском аномалий;
        • Reinforcement learning — данные не размечены, но нейросеть после каждого действия получает положительный или отрицательный. По такому принципу обучают искусственный интеллект игре в шахматы, шашки и работе в нестандартных ситуациях.

        Сколько зарабатывает

        Доход работников в Москве и СПб

        Доход работников в Москве и СПб

        Заработная плата дата-сайентиста зависит от уровня знаний, освоенных языков программирования, библиотек, а также опыта работы и размера компании. Сайт HeadHunter, опубликовал статистику дохода дата-сайентистов на основе размещенных вакансий:

        • новички в регионах России зарабатывают от 70 тысяч рублей, а в Москве — от 100 тысяч. А средняя зарплата составляет примерно 86 тысяч;
        • опытные дата-сайентисты получают 100–160 тысяч рублей;
        • высококвалифицированные — от 150 до 300 тысяч.

        Где искать заказы?

        Начинающим дата-сайентистам сложно найти хорошую работу сразу же после завершения курсов, т. к. большинство компаний ищет сотрудников с опытом не менее 1 года. Чтобы пройти собеседование и получить должность в крупном банке или сетевом магазине, нужно собрать портфолио. Примеры для портфолио можно подготовить, работая фрилансером. 

        Рекомендуем искать заказы на следующих площадках:

        • Fl.ru — самая большая биржа, на которой размещено более 5000 заказов из разных областей, включая Data Science;
        • Kwork — здесь исполнители публикуют объявления и выполняют задания за 500 рублей (однако реальная стоимость проекта многократно увеличивается за счет покупки дополнительных услуг);
        • Weblancer — старейшая биржа в России.

        А тем, кто только планирует изучать Data Science, стоит выбирать онлайн-курсы, которые включают практику на предприятии, а обучение ведут практикующие специалисты. К примеру, на всех курсах LoftSchool, включая Python для начинающих, студенты выполняют сложные задания, решения которых можно добавить в портфолио. 

        Результаты проверяют дата-сайентисты уровня Senior, поэтому ошибок в коде точно не будет. А опытные HR помогут правильно составить кейс, который впечатлит работодателя и увеличит шансы пройти собеседование. 

        Пример портфолио на GitHub

        Пример портфолио на GitHub

        Однако учебные работы и фриланс не заменят опыта разработки в крупной компании. Из-за этого рекомендуем регулярно искать стажировки и свободные должности начинающего дата-сайентиста. Благодаря постоянной помощи более опытных коллег вы сможете за 2–3 года достичь уровня Middle и увеличить доход в 1,5–2 раза.

        Вакансия для Junior Data Scientist

        Вакансия для Junior Data Scientist

        Инструменты

        Инструменты Keras

        Инструменты Keras

        Сложно назвать все инструменты, которые могут понадобится специалисту по Data Science, т. к. выбор решений зависит от языка программирования, поставленных задач и имеющейся инфраструктуры. Наиболее распространенные из них:

        • Keras — высокоуровневый API нейросетей, предоставляющий отличную библиотеку Deep Learning для Python. Преимущества этого решения заключаются в простоте изучения и совместимости с такими фреймворками, как TensorFlow, CNTK и Theano;
        • Shogun — имеет много средств для выполнения машинного обучения с ориентированием на Support Vector Machines. Написан на языке программирования С++;
        • Scikit-Learn — инструмент с открытым исходным кодом, использующийся для дата-майнинга и анализа больших данных. Сейчас его внедряют во многие проекты, т. к. в арсенале имеются регрессия, кластеринг, выбор модели, препроцессинг, классификация;
        • Pattern — модель, который поможет настроить сбор веб-данных, анализ сетей, разобраться с машинным обучением и визуализацией результатов;
        • Theano — популярный фреймворк. Его функции: совместимость с библиотекой NumPY,  самоверификация, генерация динамического кода. Однако он отличается медлительностью и сложностью API;
        • Cython — транслятор исходного кода на базе Pyrex, позволяющий создавать С-расширения для Python. При этом разработчики могут интегрировать IPython, Jupyter код, написанный с примененим Cython;
        • SciPy — экосистема программного обеспечения для инженеров и аналитиков. Она включает в себя пакеты NumPy, IPython, Pandas и др. Используя SciPy, можно быстро выполнить сложные вычисления;
        • Dask — обеспечивает параллелизм данных в аналитике. Дата-сайентист может распараллелить программный код, изменив лишь несколько строчек;
        • Numba — компилятор, который работает на инфраструктуре LLVM для обработки синтаксиса Python в машинный код. Благодаря ему выполнение операций оборудованием, предназначенном для программ машинного обучения, будет значительно быстрее.

        Востребованность профессии

        График, показывающий увеличение числа компаний, внедряющих ИИ

        График, показывающий увеличение числа компаний, внедряющих ИИ

        Из-за роста объемов поступающей информации уже даже небольшие компании нуждаются в сотруднике, способном их обработать. Дата-сайентисты изучают огромные массивы данных и на их основе разрабатывают алгоритмы, решающие поставленные задачи: прогноз погоды, рекомендательная система, настройка поисковиков, разработка чат-ботов с искусственным интеллектом, выполнение сложных исследований.

        В ходе Всемирного экономического форума, спикеры назвали Data Science одним из самых перспективных направлений в IT, востребованность которого не снизится вплоть до конца 2025 года. В феврале 2022 на HeadHunter было размещено более 700 вакансий по запросу «Data Scientist».

        Важность этого направления подчеркивают стартапы, выросшие до лидеров в отрасли. К примеру: TikTok использует интеллектуальную систему рекомендаций видео, MSQRD — технологию распознавания лиц.

        Data Science — сложная, но перспективная область. Рынок труда еще не переполнен опытными работниками, поэтому даже новичок может претендовать на должность в крупной компании и зарплату более 70 тысяч рублей. А дата-сайентист уровня Senior никогда не останется без работы, т. к. будет востребован не только в России, но и за рубежом.

         

          Поделись публикацией

          Категории

          • Все записи блога
            • Трудоустройство
              • Истории выпускников LoftSchool
              • Полезные советы
            • Полезные ссылки
              • Книги
              • Инструменты
            • Новости школы
              • Команда LoftSchool
              • Информация о курсах
            • Статьи
              • Архив материалов
                • DevNews
                • DevShow
                • Loftnews
                • Loftschool
                • Loftvlog
                • Интервью
                • Видеоуроки
              • © 2012 - 2023 LOFT

                Школа онлайн образования

              • © 2012 - 2023 LOFT

                Школа онлайн образования

                • +7 (800) 600 09 54
                • +7 (812) 339 22 01
                • [email protected]
                УчастникSkolkovo
              • Полезная рассылка

                Подпишись, чтобы быть в курсе наших новостей, акций и скидок.

              • Полезное
                • О нас
                • Карта курсов
                • B2B
                • Работодателям
                • Партнерская программа
                • Вакансии
                • Стать автором
                • Подарочные сертификаты
                • Вебинары
                • Блог
                • FAQ
              • Информация
                • Публичная оферта портала
                • Политика конфиденциальности
                Безопасная передача данных