школа машинного обучения яндекс

Школа машинного обучения яндекс

Программы, курсы и соревнования, посвященные анализу данных и машинному обучению.

Офлайн

Школа анализа данных

Двухлетняя программа для студентов старших курсов и выпускников, которые хотят стать продвинутыми датасаентистами или архитекторами систем хранения и обработки больших данных.

Специализация Яндекса на мехмате МГУ

Специализация «Теория и практика Data Science» подготовит специалистов для работы в индустрии и науке

Онлайн-магистратура по наукам о данных ВШЭ

Первая в России англоязычная магистерская программа, реализуемая полностью онлайн созданная совместно Яндексом и ВШЭ. Цель программы — подготовить специалистов по современному анализу данных, разработчиков машинного обучения и будущих исследователей.

Совместная магистратура ННГУ и Школы анализа данных

Программа «Когнитивные системы» готовит специалистов, умеющих строить системы искусственного интеллекта.

«Сделать невозможно, а я всё равно сделаю»

Антон Осокин о конференциях, работе учёного и о том, что двигает науку вперёд

Премия им. Ильи Сегаловича

Поддержка талантливых студентов, аспирантов и научных руководителей. Студенты и аспиранты могут сами подавать заявки на соискание премии, а также номинировать научных руководителей.

Совместная специальность Яндекса и БГУ

Магистерская программа «Алгоритмы и системы обработки больших объемов информации»

Источник

Курс по машинному обучению на Coursera от Яндекса и ВШЭ

Когда-то мы публиковали на Хабре курс по машинному обучению от Константина Воронцова из Школы анализа данных. Нам тогда предлагали сделать из этого полноценный курс с домашними заданиями и разместить его на Курсере.

И сегодня мы хотим сказать, что наконец можем выполнить все эти пожелания. В январе на Курсере пройдёт курс, организованный совместно Яндексом (Школой анализа данных) и ВШЭ. Записаться на него можно уже сейчас: www.coursera.org/learn/introduction-machine-learning.

Сооснователь Coursera Дафна Коллер в офисе Яндекса

Курс продлится семь недель. Это означает, что по сравнению с ШАДовским двухсеместровым курсом он будет заметно упрощен. Однако в эти семь недель мы попытались вместить только то, что точно пригодится на практике, и какие-то базовые вещи, которые нельзя не знать. В итоге получился идеальный русскоязычный курс для первого знакомства с машинным обучением.

Кроме того, мы верим, что после прохождения курса у человека должна остаться не только теория в голове, но и скилл «в пальцах». Поэтому все практические задания построены вокруг использования библиотеки scikit-learn (Python). Получается, что после прохождения нашего курса человек сможет сам решать задачи анализа данных, и ему будет проще развиваться дальше.

Под катом можно прочитать подробнее обо всех авторах курса и узнать его примерное содержание.

О преподавателях

Лектор курса – Константин Воронцов. Константин Вячеславович много лет преподает основы машинного обучения студентам ШАД, Вышки, МФТИ и МГУ.

Практическую часть курса подготовили Петр Ромов, Анна Козлова и Евгений Соколов, который также читает несколько лекций. Все трое работают в Яндексе (Женя и Петя в Yandex Data Factory, Аня — в отделе машинного перевода) и применяют машинное обучение в своей ежедневной деятельности. Ребята в курсе происходящего в области анализа данных и постарались подготовить задания так, чтобы их выполнение принесло максимальную пользу слушателям курса.

Программа

Это описание модулей курса в том виде, в котором оно откроется на «Курсере» одновременно со стартом курса.

1. Знакомство с анализом данных и машинным обучением.
В этом модуле мы расскажем о задачах, которые решает машинное обучение, определим базовый набор понятий и введем необходимые обозначения. Также мы расскажем про основные библиотеки языка Python для работы с данными (NumPy, Pandas, Scikit-Learn), которые понадобятся для выполнения практических заданий на протяжении всего курса.

2. Логические методы классификации.
Логические методы делают классификацию объектов на основе простых правил, благодаря чему являются интерпретируемыми и легкими в реализации. При объединении в композицию логические модели позволяют решать многие задачи с высоким качеством. В этом модуле мы изучим основной класс логических алгоритмов — решающие деревья. Также мы поговорим про объединение деревьев в композицию, называемую случайным лесом.

3. Метрические методы классификации.
Метрические методы проводят классификацию на основе сходства, благодаря чему могут работать на данных со сложной структурой — главное, чтобы между объектами можно было измерить расстояние. Мы изучим метод k ближайших соседей, а также способ его обобщения на задачи регрессии с помощью ядерного сглаживания.

4. Линейные методы классификации.
Линейные модели — один из наиболее изученных классов алгоритмов в машинном обучении. Они легко масштабируются и широко применяются для работы с большими данными. В этом модуле мы изучим метод стохастического градиента для настойки линейных классификаторов, познакомимся с регуляризацией и обсудим некоторые тонкости работы с линейными методами.

5. Метод опорных векторов и логистическая регрессия.
Линейные методы имеют несколько очень важных подвидов, о которых пойдет речь в этом модуле. Метод опорных векторов максимизирует отступы объектов, что тесно связано с минимизацией вероятности переобучения. При этом он позволяет очень легко перейти к построению нелинейной разделяющей поверхности благодаря ядровому переходу. Логистическая регрессия позволяет оценивать вероятности принадлежности классам, что оказывается полезным во многих прикладных задачах.

6. Метрики качества классификации.
В машинном обучении существует большое количество метрик качества, каждая из которых имеет свою прикладную интерпретацию и направлена на измерение конкретного свойства решения. В этом модуле мы обсудим, какие бывают метрики качества бинарной и многоклассовой классификации, а также рассмотрим способы сведения многоклассовых задач к двухклассовым.

7. Линейная регрессия.
В этом модуле мы изучим линейные модели для регрессии и обсудим их связь с сингулярным разложением матрицы «объекты-признаки».

8. Понижение размерности и метод главных компонент.
В прикладных задачах часто возникает потребность в уменьшении количества признаков — например, для ускорения работы моделей. В этом модуле мы обсудим подходы к отбору признаков, а также изучим метод главных компонент, один из самых популярных методов понижения размерности.

9. Композиции алгоритмов.
Объединение большого числа моделей в композицию может значительно улучшить итоговое качество за счет того, что отдельные модели будут исправлять ошибки друг друга. В этом модуле мы обсудим основные понятия и постановки задач, связанные с композициями, и обсудим один из наиболее распространенных способов их построения — градиентный бустинг.

10. Нейронные сети.
Нейронные сети позволяют находить сложные нелинейные разделяющие поверхности, благодаря чему широко используются в таких трудных задачах, как распознавание изображений и речи. В этом модуле мы изучим многослойные нейронные сети и их настройку с помощью метода обратного распространения ошибки. Также мы поговорим о глубоких нейросетях, их архитектурах и особенностях.

11. Кластеризация и визуализация.
Этот модуль посвящен новому классу задач в машинном обучении — обучению без учителя. Под этим понимаются ситуации, в которых нужно найти структуру в данных или произвести их «разведку». В этом модуле мы обсудим две таких задачи: кластеризацию (поиск групп схожих объектов) и визуализацию (отображение объектов в двух- или трехмерное пространство).

12. Частичное обучение.
Под частичным обучение понимается задача, находящаяся между обучением с учителем и кластеризацией: дана выборка, в которой значение целевой переменной известно лишь для части объектов. Такие ситуации встречаются, когда разметка объектов является дорогой операцией, но при этом достаточно дешево можно подсчитать признаки для объектов. В этом модуле мы обсудим отличия частичного обучения от рассмотренных ранее постановок, и разберем несколько подходов к решению.

13. Машинное обучение в прикладных задачах
В этом модуле мы подведем итоги курса, вспомним основные этапы решения задачи анализа данных. Также мы разберем несколько задач из прикладных областей, чтобы подготовиться к выполнению финального проекта.

Источник

Бесплатное обучение от Яндекса, о котором вы могли не знать

Меня зовут Артём Сайгин, я веду телеграм канал Growth lab, в котором рассказываю о маркетинге и росте IT-продуктов.

Шесть школ со множеством направлений, курсы, видео с лекций на сотни часов. Решил собрать все бесплатные материалы по обучению от Яндекса в одну статью, т. к. многие не знают о существовании таких возможностей.

Статья будет полезна тем, кто только начинает путь в IT и тем, кто хочет научиться чему-то новому.

Академия имеет несколько школ, набор в которые открывается один (или несколько) раз в год. Обучение бесплатное, но есть условия приёма в школу: нужно подать заявку, выполнить тестовое задание и дождаться результатов отбора. Подробнее об поступлении почитайте на сайте школы.

Школа мобильной разработки — имеет два направления: разработка по IOS и разработка под Android.

Школа дизайна — также представлено два направления: продуктовый
дизайн и коммуникаций.

Школа менеджеров Яндекса — представляет аж три направления: управление проектами и продуктами, маркетинг, продуктовая аналитика.

Школа анализа данных — это бесплатная программа и длиться она два года. Рассчитана на тех, кто хочет стать продвинутым датасаентистом или архитектором систем хранения и обработки больших данных.

Так что, если интересно изучить новую профессию, или вы только начинаете свой путь в IT-индустрии — вэлкам. Очень хороший старт и возможность поработать с реальными продуктами Яндекса.

Второе — курсы на coursera.

Источник

Школа машинного обучения яндекс

Академия Яндекса — это бесплатный образовательный проект для тех, кто интересуется информационными технологиями, хочет профессионально развиваться в этой области и готов много работать над этим.

Офлайн

Школа анализа данных

Лицей Академии Яндекса

Двухгодичные курсы программирования на языке Python для школьников 8-10 класса, где можно научиться создавать приложения с графическим интерфейсом и разными библиотеками.

Интенсив по мобильной разработке в Сириусе

Участников ждут лекции, семинары, а главное — много практики

Школа бэкенд-разработки

Приглашаем начинающих бэкенд-разработчиков, готовых получать новые знания.

Не только для выпускников мехмата: как ШАД учит разработчиков математике

Рассказывает преподаватель курса «Математика для Data Science»

Школа разработки интерфейсов

Приглашаем начинающих фронтенд-разработчиков, готовых получать новые знания.

Онлайн

Практический краудсорсинг для эффективного машинного обучения

Видеозаписи лекций Школы дизайна

Видеозаписи лекций Школы продактов Яндекса

Специализация Яндекса на мехмате МГУ

Специализация «Теория и практика Data Science» подготовит специалистов для работы в индустрии и науке

Онлайн-магистратура по наукам о данных ВШЭ

Совместная магистратура ННГУ и Школы анализа данных

Программа «Когнитивные системы» готовит специалистов, умеющих строить системы искусственного интеллекта.

«Сделать невозможно, а я всё равно сделаю»

Антон Осокин о конференциях, работе учёного и о том, что двигает науку вперёд

Премия им. Ильи Сегаловича

Совместная специальность Яндекса и БГУ

Магистерская программа «Алгоритмы и системы обработки больших объемов информации»

Источник

Как проходят секции по машинному обучению на собеседованиях в Яндекс

Каждый сервис компании Яндекс во многом основан на анализе данных и методах машинного обучения. Они требуются и для ранжирования результатов веб-поиска, и для поиска по картинкам, и для формирования рекомендательных блоков. Машинное обучение позволяет нам создавать беспилотные автомобили и голосовых ассистентов, уменьшать время бесполезного простоя для таксистов и уменьшать время ожидания для их клиентов. Все приложения и не перечислить!

Поэтому мы всегда испытываем потребность в специалистах по анализу данных и машинному обучению. Одним из важнейших этапов собеседования в Яндекс для них является общая секция по машинному обучению, о которой я и расскажу в этой статье. Пример модельной задачи для этой секции и возможного содержания ответа по ней я разобрал в видео, которое недавно стало доступно на YouTube. В этой статье я подробнее расскажу о том, чего мы ждём от сильного кандидата на такой секции и почему мы сформулировали именно такие критерии.

1. Собеседования по машинному обучению в Яндексе

Старшие и ведущие сотрудники в Яндексе умеют самостоятельно превращать задачи, сформулированные в бизнес-терминах, в корректно поставленные задачи машинного обучения; выбирать подходящие методы решения, формировать признаковые описания, строить процесс обновления моделей и корректного контроля их качества; наконец, проверять, что полученные решения отвечают изначальным бизнес-требованиям.

В значительной степени эти люди влияют и на //формирование// бизнес-требований: люди, непосредственно работающие с данными, могут лучше всех в мире знать, какие характеристики сервисов влияют на их популярность и полезность, какие проблемы пользователей необходимо решать и на каких показателях это скажется.

Как правило, наши лучшие сотрудники обладают ещё и экспертными знаниями в специфических областях — например, компьютерном зрении, построении языковых моделей или моделей для рекомендательных или поисковых сервисов.

Мы очень ценим наших сотрудников и их экспертизу и хотим, чтобы внешние кандидаты также соответствовали этому уровню. Для проверки этого одна или несколько секций могут быть посвящены специальным вопросам, таким, как компьютерное зрение или методы обучения ранжированию. Одна из секций обязательна посвящена «общим» вопросам: постановке задачи, формированию целевой функции и обучающей выборки, приёмке моделей. Именно о ней сейчас и пойдёт речь.

Разумеется, полный спектр требований применим лишь к тем кандидатам, что претендуют на позиции старших или ведущих специалистов. Кандидатам, рассчитывающим на middle- или junior-позиции, не обязательно уметь всё перечисленное, но им стоит знать, что соответствующие навыки чрезвычайно полезны для карьерного роста – и в Яндексе, и в других компаниях.

В зависимости от требований подразделения также может потребоваться алгоритмическая секция с написанием кода или даже архитектурная секция.

2. Постановка задачи

Итак, основной задачей секции является проверка, насколько кандидат способен самостоятельно разобраться с задачей во всём её объёме, начиная от её постановки и заканчивая вопросами приёмки в пользовательских экспериментах.

Секция начинается с формулировки задачи в бизнес-терминах. Скажем, может потребоваться создать сервис, подсказывающий близлежащие заведения, рекомендующий определённые товары или ранжирующий интересные пользователям фильмы или музыку.

Начать можно с определения возможных приложений рассматриваемой задачи. Сколько пользователей будет у получившегося решения, кто они, для чего им требуется эта функциональность, как они о ней узнают? Кандидат может задать все эти вопросы, а может предложить собственное видение ответов (последний вариант, конечно же, предпочтителен).

Исходя из причин возникновения задачи формулируются бизнес-метрики, а затем и метрики, подходящие для оптимизации в процессе обучения или выбора моделей. Показатель чрезвычайно высокого класса кандидата — если выбор метрик для оптимизации продиктован физическим смыслом решаемой задачи. Простейший пример такого рода — использование DCG-like метрик для задач ранжирования или AUC-like метрик для некоторых специфичных задач классификации.

Здесь же необходимо затронуть вопрос формирования обучающей выборки. Какие данные для её формирования необходимы, как их получать? Что является событием для нашего обучения? Требуется ли осуществлять семплирование? Если да, то как его делать?

3. Методы машинного обучения

После того, как задача в полной мере сформулирована, можно приступать к обсуждению методов её решения.

Здесь необходимо выбрать модель, которая будет строить решение, и обосновать свой выбор. Стоит рассказать о том, какой функционал потерь оптимизируется в процессе построения модели и почему именно он является хорошим выбором для оптимизации тех метрик, о которых шла речь в предыдущем пункте. Также полезно рассмотреть используемый метод оптимизации.

Следующий обязательный для обсуждения пункт — пространство признаков. Классный специалист способен сходу придумать несколько десятков или даже сотен признаков в новой задаче, предварительно разбив их на несколько классов сообразно используемым видам данных (например, признаки могут зависеть только от пользователя, а могут – от пары «пользователь — объект»).

Дополнительным плюсом будет рассмотрение проблемы cold start. Когда сервис Яндекс.Такси уже создан, мы можем использовать информацию о реальных поездках для оптимизации методов маршрутизации по городу; когда уже есть поисковая система Яндекс, можно использовать действия пользователей для получения сигналов о том, какие документы релевантны запросам. Но что делать, если сервис ещё не создан, а решаемая задача критична для его функционирования? Нужно предложить какой-то способ построения достаточно хорошего решения в этом случае.

4. Контроль качества

Наконец, когда решение готово, необходимо удостовериться в том, что оно достаточно хорошо. Если новому решению предшествовало некоторое предыдущее — необходимо понять, является ли новое решение более качественным.

В этот момент кандидату необходимо продемонстрировать свои способности в формулировании экспериментов для проверки соответствующих гипотез. Здесь нужно выбрать модель эксперимента и способ проверки статистической значимости изменений. Скажем, это может быть обычный A/B эксперимент на пользователях сервиса, а может быть экспертное оценивание результатов работы. Какие при этом показатели необходимо отслеживать? За чем и как необходимо следить, чтобы обеспечить корректность эксперимента?

5. Как преуспеть на секции

Уровень кандидата полностью определяется тем, насколько самостоятельно и глубоко ему удалось изложить решение поставленной задачи. Хорошо проведённая секция по машинному обучению неотличима от секции, известной у наших западных коллег как ML System Design, а слабая секция может быть похожа на обсуждение какого-либо специального вопроса — например, оптимизации LLH линейными разделяющими правилами.

При этом мы хорошо понимаем, что в задачах машинного обучения зачастую неясно, какой метод сработает и сработает ли вообще хотя бы какой-нибудь. Поэтому чувствуйте себя свободно, обсуждайте задачу с собеседником так, как будто это ваш коллега, с которым вы решили обсудить возможные варианты решения задачи, возникшей в процессе обычной работы. Мы не требуем, чтобы описанное на секции решение было гарантированно хорошим — мы лишь хотим, чтобы оно имело под собой разумное обоснование, позволяющее поверить, что вы справитесь с подобной задачей в реальных условиях.

Например, мы не требуем досконального знания различных статистических критериев, но ожидаем, что вы осознаёте важность корректной проверки гипотез и обладаете достаточной квалификацией, чтобы при необходимости эти методы применять. Аналогично, на этой секции не требуется подробного описания работы методов машинного обучения, но ожидаем, что вы сумеете обоснованно выбирать те или иные модели для своих задач.

При этом вы вольны углубляться в хорошо известные вам области. Уделяйте им больше времени в своём ответе и меньше говорите о том, в чем ваши знания не так глубоки. Мы понимаем, что невозможно быть специалистом во всех областях и при этом ценим интеллектуальную честность. Если кандидат хорошо понимает свои сильные и слабые стороны и способен открыто об этом говорить — это очень хороший признак. Кроме того, это позволяет эффективно тратить время секции: оно будет в большей степени потрачено на выявление сильных сторон кандидата.

Наконец, приведу несколько источников, изучить которые будет полезно как для того, чтобы успешнее работать над проектами, связанными с машинным обучением, так и для того, чтобы подготовиться к секции по машинному обучению.

Источник