большие данные и машинное обучение как науки

18.04.202319.04.2023 admin 0 Comments

Big Data, блокчейн, машинное обучение — объясняем термины на ёжиках

Искусственный интеллект и машинное обучение всё чаще используются компаниями в маркетинге. О том, как и для чего они применяются в работе, расскажем в следующих статьях. А чтобы лучше понимать, как устроены эти технологии, мы подготовили для вас тематический словарь с наглядными примерами. Объясняем термины так просто, чтобы и ежу стало понятно.

Искусственный интеллект
Он же ИИ, Artificial Intelligence, AI

Точного определения не существует, совсем как в философии. Всё зависит от того, что именно понимать под словами «разум» и «интеллект». Считать это только свойством людей? Или некоторые животные тоже разумны и обладают интеллектом? В целом, искусственный интеллект — это свойство систем имитировать либо психические процессы человека, либо разумное поведение и возможность совершать выбор.

Представьте, вы мечтаете завести ежа. Останавливает только аллергия на этих животных. Тогда друзья предлагают купить робоёжика. Он должен уметь воспроизводить поведение настоящего ежа: фыркать, выражая своё недовольство, сворачиваться в клубочек, когда его пытаются погладить, громко топать лапками по ночам, любить хозяина и кусать незнакомых ему людей. Если ваш робоёж умеет всё это, то можете смело говорить, что он обладает искусственным интеллектом.

Большие данные
Они же Big Data

Вроде сразу понятно, большие данные — это много каких-то данных. Но всё не так просто. Для начала, много — это сколько? Три, десять, миллион, миллиард? А чего — мегабайтов, гигабайтов, терабайтов? Насчёт этого нет единого мнения. Кто-то думает, что это когда данные нельзя посчитать на одном компьютере, кто-то — когда ежедневный поток информации превышает 100 Гб в день. Принято считать, что большие данные — это не только сами данные, но ещё и инструменты, подходы и методы обработки информации.

Допустим, есть задание от Гринпис: каждый день считать белобрюхих, ушастых и африканских карликовых ежей, живущих на территории заповедника. Это нужно, чтобы сравнить их количество между собой и посмотреть, не уменьшается ли популяция одного из видов ежей.

Каждый день вы собираете всех ёжиков и распределяете по трём комнатам.

Если в заповеднике 100 ёжиков, задача кажется легкой. С 1000 ежей становится сложнее (не забывайте, они могут выбегать). А если у вас самый большой в мире ежиный заповедник, то вручную животных уже не посчитать — в этот момент они станут большими данными. Вам придётся обзавестись инструментом обработки больших данных — умным автоматическим сортировщиком ежей. Он не только распределит и посчитает животных, но и найдёт новые зависимости, например, сезонные колебания в ежиной популяции.

Блокчейн
От англ. Blockchain

Блокчейн — это не только про криптовалюту! Это технология хранения информации в цепочке блоков. Каждый из блоков содержит данные о всей предыдущей цепочке: известно, что именно хранится в предыдущих блоках, кто и когда создал информацию, переместил её или изменил. Все сведения дублируются на разных компьютерах, возможно, в разных странах. Благодаря этому подделать их просто невозможно.

Представьте, что у вас есть лучший друг — ёж Соник. Прибегает сосед, грозится вызвать полицию и кричит, что у него есть видео, где Соник два дня назад крадёт огромный алмаз, закопанный в саду. Но такого не может быть: весь вечер вы с ежом смотрели сериалы и ели пиццу.

Предположим, все записи с камер наблюдения района хранятся с помощью технологии блокчейн: запись одного дня с одной камеры — один блок, в новом блоке содержится видеозапись нового дня и код-идентификатор предыдущего блока. Полицейский получает доступ ко всем камерам, на которых виден сад соседа. Затем он ищет код с нужной камеры, смотрит на идентификатор видео, где Соник крадёт алмаз и понимает, что видео сфабриковано. Теперь можно дальше счастливо есть пиццу, а сосед будет отрабатывать наказание за клевету!

Машинное обучение
Оно же МО, Machine Learning, ML

Это алгоритмы, обучающиеся самостоятельно или с помощью учителя. Выглядит это примерно так:

С помощью методов машинного обучения можно научить компьютеры распознавать ёжиков или рисовать их. Ниже расскажем про два разных подхода с конкретными примерами.

1. Градиентный бустинг

От англ. Gradient Boosting

Это способ последовательного построения алгоритмов. Каждый новый алгоритм создаётся, чтобы исправить недостатки предыдущего.

Например, мы придумываем алгоритм, определяющий породу ежей. Для начала смотрим их размеры: большой ёж, средний или маленький. Это наше первое простое дерево решений. Затем ещё несколько:

Далее соединяем все признаки в одно дерево и получаем заготовку, словно мы делаем тест «Какой вы ёжик». Все породы такой тест не покроет, поэтому придётся построить ещё одно дерево с учётом получившейся ошибки. Каждое новое дерево будет уменьшать ошибку и точнее определять породу ежей.

2. Нейронные сети

От англ. Artificial neural network

Это аналог нейронных сетей человеческого мозга. Много маленьких нейронов решают свои простейшие операции. Они взаимосвязаны и вместе выполняют сложные функции.

Предположим, мы много раз сфотографировали и нарисовали ежей, показали компьютеру и сказали: «Смотри, всё это ёжики». Он проанализировал картинки, наложил их друг на друга и выделил признаки ежа. В результате получилось представление — его называют слоем свёртки. Человек, который посмотрит на него, скорее всего, не поймет, почему алгоритм так видит ёжиков. Он увидит только набор пикселей. Такой сверточной нейронной сети теперь можно показать видео из заповедника, а она посчитает, сколько ежей там живет.

Модель машинного обучения
Она же ML model

Это конкретный обученный алгоритм. Модель со своим набором признаков (фич) решает только тот тип задач, для которого была построена. Как ёжик, которого научили ловить определённый вид гусениц.

Фича
От англ. feature — особенность, характеристика, свойство

Это сленговое обозначение признаков, применяющихся в моделях. Помните, мы в градиентном бустинге строили деревья для определения породы ежа? Так вот, форма ушек — это фича. Как и длина иголок.

Если вы хотите подробнее узнать, как устроено машинное обучение, где мы сталкиваемся с ним в жизни и как оно используется в маркетинге, переходите на статью «Вторжение машинного обучения: от заказа такси до персонализации контента».

Источник

Чем отличаются наука о данных, анализ данных и машинное обучение

Перевод статьи Клеофаса Мулонго «Difference Between Data Science, Analytics And Machine Learning».

Наука о данных, машинное обучение и анализ данных это три главные сферы деятельности, получившие в последние годы огромную популярность. Для профессионалов в этих областях настал их звездный час. Спрос на них на рынке труда высок. Предсказывают, что к 2020 году в этих сферах деятельности будет много открытых вакансий.

Так что же означают эти названия? Чем отличаются эти сферы деятельности? Чтобы ответить на эти и другие вопросы, мы сравнили науку о данных, машинное обучение и анализ данных.

Наука о данных

Что такое наука о данных?

Хотя этот предмет имеет множество определений, мы воспользуемся самым распространенным, которое будет понятно всем. Наука о данных это концепция, которая используется для работы с большими данными. Эта концепция включает аспекты подготовки данных, очистки данных и анализа данных.

В нормальных обстоятельствах человек, занимающийся наукой о данных, собирает данные из различных источников и применяет различные техники для того чтобы извлечь из этих наборов данных осмысленную информацию. Среди часто используемых при этом методов можно назвать предикативную аналитику, анализ настроений и даже машинное обучение.

Люди, занимающиеся наукой о данных, рассматривают эти данные с точки зрения бизнеса. Они стараются делать прогнозы максимально точно, поскольку на их основе могут приниматься решения.

Навыки, необходимые, чтобы заниматься наукой о данных

Вы хотите быть профессиональным data scientist? Есть несколько ключевых областей специализации, на которых вам нужно будет сфокусироваться. Это программирование, аналитика и предметная область (узкоспециальные знания).

Вам нужно будет приобрести следующие знания и навыки:

Машинное обучение

Начнем с главного. Что такое машинное обучение?

Машинное обучение можно описать как процесс использования алгоритмов для тщательного исследования данных и извлечения из них осмысленной информации. Машинное обучение также может использовать заданные наборы данных для предсказания будущих тенденций. Годами программное обеспечение для машинного обучения использует статистический и предикативный анализ для определения шаблонов и выявления в них скрытых, но имеющих значение знаний.

Прекрасным примером реализации машинного обучения в жизни является алгоритм Facebook. Этот алгоритм создан для изучения вашего поведения в этой социальной сети. Полученные знания он затем использует для формирования вашей ленты. Amazon изучит ваше поведение в браузере, чтобы рекомендовать вам продукты, которые вы, вероятно, захотите купить. То же самое касается Netflix. Он будет рекомендовать вам фильмы, исходя из ваших привычек браузинга.

Что нужно, чтобы стать экспертом в машинном обучении?

Если рассматривать строго, то машинное обучение можно считать ответвлением как информатики, так и статистики. Если вы планируете остановить свой выбор на этой карьере, вам следует:

Чем отличаются наука о данных и машинное обучение?

Наука о данных это широкое поле деятельности, которое включает в себя многие дисциплины. Машинное обучение подпадает под понятие науки о данных, ведь оно применяет несколько техник, обычно используемых в этой сфере.

А вот наука о данных может быть производной машинного обучения, а может и не быть. Она включает в себя много дисциплин, в отличие от машинного обучения, которое концентрируется на одном предмете.

Анализ данных

Анализ данных, чтобы прийти к какому-то выводу, влечет за собой появление описательной статистики и визуализации данных. Он очень связан со статистикой. Аналитик должен уметь работать с числами. В большинстве случаев анализ данных рассматривается как базовая версия науки о данных.

Если вы занимаетесь анализом данных, вы должны хорошо уметь объяснять разнообразные причины, почему данные именно такие, какие есть. Вы должны уметь представлять данные таким образом, чтобы они были понятны каждому, а не только экспертам.

Какие навыки нужны, чтобы работать в сфере анализа данных?

Вы должны хорошо разбираться в следующих областях знаний:

Как видите, все три сферы деятельности тесно связаны друг с другом. Однако между ними существуют различия, о которых мы вам и рассказали в нашей статье. Надеемся, теперь вы сможете лучше различать науку о данных, машинное обучение и анализ данных.

Источник

Наука о данных, искусственный интеллект, машинное обучение: путь самоучки

Не каждый может найти время и деньги на то, чтобы получить очное образование в сферах Data Science (DS, наука о данных), AI (Artificial Intelligence, искусственный интеллект), ML (Machine Learning, машинное обучение). Недостаток времени и нехватка денег — это серьёзные препятствия. Преодолеть эти препятствия можно, занявшись самообучением. Но и тут не всё так просто. Для того чтобы успешно учиться самостоятельно, нужны дисциплина, сосредоточенность и правильный подбор учебных предметов. Самообучение в выбранной области, при правильном подходе, можно свободно совмещать с обычной жизнью или с учёбой в общеобразовательных учреждениях. Но в некоторых областях знаний, в таких, как DS, AI, ML, очень сложно начать учиться самостоятельно. Однако, прошу поверить мне на слово, сложности стоят того, что можно получить в результате. Ключ к успеху в самообучении лежит в том, чтобы учиться в собственном темпе.

В этом материале я хочу рассказать о том, как можно действовать тому, кто хочет самостоятельно обрести знания в областях DS, AI и ML. Применение предложенных здесь методов учёбы способно привести к хорошему прогрессу в изучении нового. Здесь, кроме того, я собираюсь поделиться ссылками на ресурсы, которыми я пользуюсь, и которые я без тени сомнения готов порекомендовать другим.

Изучите некоторые математические дисциплины

Математика, даже если это кому-то и не нравится, очень важна в интересующей нас области. Я думаю, что можно с достаточной уверенностью говорить о том, что те, кто это читают, уже обладают некоторыми знаниями по математике, которые они получили в школе. Это — хорошая база, но этого и близко недостаточно тому, кто хочет развиваться в сферах DS, AI и ML. А именно, тут понадобится углубиться в математику немного сильнее, чем это делается в школе, придётся изучить некоторые вещи из статистики, алгебры и других математических дисциплин. Я собрал бы список полезных ресурсов по математике для DS, но это уже сделали за меня в этой статье. И сделали очень хорошо.

Научитесь программировать

Если вы только начинаете самообучение — не стоит сразу бросаться в изучение того, как писать код для целей машинного обучения. Вместо этого стоит изучить основные концепции программирования, не привязанные к какой-либо предметной области. Узнайте о том, что такое программирование, ознакомьтесь с разными существующими типами кода, разберитесь с тем, как правильно писать программы. Это очень важно, так как в процессе освоения программирования вы изучите множество базовых идей, которые сослужат вам хорошую службу на протяжении всей вашей DS-карьеры.

Не спешите, не стремитесь сразу изучить что-то сложное. То, насколько хорошо вы поймёте основы, скажется на всей вашей будущей профессиональной деятельности. Здесь вы можете найти очень хорошие видеоуроки, которые познакомят вас с программированием и информатикой. А именно, в них разбираются самые важные вещи, в которых вам нужно разбираться. Уделите этому вопросу достаточно времени и постарайтесь дойти до понимания всего, что узнаете.

Выберите один язык программирования и как следует в нём разберитесь

Существует много языков программирования, используемых теми, кто работает в областях DS, AI и ML. Чаще всего здесь используются Python, R, Java, Julia и SQL. В данных сферах могут применяться и другие языки, но те, которые я перечислил, применяются чаще других не без причины:

Научитесь собирать данные

Чаще всего вам никто не будет давать данные, предназначенные специально для вас, а иногда в вашем распоряжении может не быть вообще никаких данных. Но, в любом случае, вам нужно найти способ сбора данных, с которыми вы будете работать. У организации, в которой вы трудитесь, может быть хорошая система сбора данных. Если это так, для вас это — большой плюс. Если такой системы в организации нет, то вам придётся найти способ сбора данных. Но речь идёт не о любых данных, а о качественной информации, с который вы сможете продуктивно работать, достигая поставленных целей. Сбор данных не имеет прямой связи с «добычей данных», с их глубинным анализом. Сбор данных — это шаг работы, который предшествует анализу.

Открытые данные, которыми можно пользоваться бесплатно, можно найти во многих местах интернета. Иногда же нужные данные можно собрать с веб-сайтов, применяя методы веб-скрапинга. Владение веб-скрапингом — это очень важный навык дата-сайентиста, поэтому я очень прошу всех, кто собирается работать в областях DS, AI и ML, освоить этот навык. Вот хорошее руководство по веб-скрапингу.

Данные, кроме того, могут храниться в базах данных, поэтому вам очень пригодятся начальные сведения по администрированию БД и умения по взаимодействию с базами данных. В частности, здесь очень важны знания SQL. Поучиться SQL можно здесь.

Научитесь обрабатывать данные

То, о чём я будут тут говорить, часто называют «первичной обработкой данных» (Data Wrangling). Этот процесс включает в себя очистку имеющихся данных. Здесь применяется разведочный анализ данных и удаление из них всего ненужного. Этот процесс так же включает в себя структурирование данных, приведение их к такой форме, с которой можно будет работать. Эта стадия работы с данными является самой тяжёлой и изматывающей. Те данные, с которыми вы столкнётесь в процессе обучения, будут уже подготовлены к анализу. Но данные, с которыми вы встретитесь в реальном мире, могут быть совершенно «сырыми». Если вы и правда стремитесь стать специалистом в области обработки и анализа данных, вам стоит найти настоящие данные и отыскать способы приведения их в пристойный вид.

Реальные данные можно найти практически повсюду. Например — на Kaggle. На этой замечательной платформе имеются данные от множества компаний со всего мира. Первичная обработка данных — это очень утомительное занятие, но если вы будете заниматься этим регулярно и настойчиво, вы, постепенно, поймёте, что занятие это ещё и очень интересное. Вот хорошие лекции по первичной обработке данных.

Научитесь визуализировать данные

Если вы — специалист по DS, AI или ML, и хорошо разбираетесь в своём деле, вы не должны забывать о том, что то, что кажется вам очевидным, может быть совершенно непонятно окружающим. Не ждите от них того, что они, например, смогут сделать выводы, глядя на колонки цифр. Научиться визуализировать данные нужно для того чтобы результатами вашей работы могли бы воспользоваться специалисты из других областей. «Визуализацией данных» обычно называют процесс представления данных в графическом виде. Такое представление данных позволит извлечь их них пользу даже тем, кто не имеет специальных знаний в сферах DS, AI и ML.

Существует множество способов визуализации данных. Так как мы, всё же, программисты, нашим основным методом визуализации данных должно быть написание соответствующего кода. Это быстро и не требует покупки специализированных инструментов. При написании кода для визуализации данных можно пользоваться множеством бесплатных и опенсорсных библиотек, созданных для используемых нами языков программирования. Например, существуют библиотеки такого рода для Python. Это — Matplotlib, Seaborn и Bokeh. Вот видеоурок по Matplotlib.

Ещё один способ визуализации данных предусматривает использование инструментов с закрытым кодом. Например — Tableau. Существует много таких средств, они позволяют добиваться весьма привлекательных результатов, но они не бесплатны. Tableau — один из самых распространённых подобных инструментов, им я пользуюсь очень часто. Я посоветовал бы всем, кто занимается анализом и визуализацией данных, изучить Tableau. Вот хорошее руководство по этому инструменту.

Искусственный интеллект и машинное обучение

AI и ML можно рассматривать как подразделы DS, так как они основаны на данных. AI и ML — это технологии, которые основаны на обучении машин поведению, сходному с поведением людей. Для этого используются специально подготовленные данные, передаваемые машинам. Компьютерные модели можно научить многому такому, на что способны люди. Для этого их обучают и направляют к нужному результату. В данном случае «машины» можно воспринимать как маленьких детей, не имеющих совершенно никаких знаний. Этих детей постепенно обучают идентифицировать объекты, говорить. Они учатся на своих ошибках и, по мере обучения, начинают всё лучше решать поставленные перед ними задачи. Так происходит и с машинами.

Технологии AI и ML — это то, что «оживляет» машины с использованием множества математических алгоритмов. Человечеству до сих пор не известны границы возможностей этих постоянно совершенствующихся технологий. В наши дни технологии AI и ML широко используются для решения когнитивных задач. Это — обнаружение и распознавание объектов, распознавание лиц и речи, обработка естественного языка, выявление спама и обнаружение мошенничества. Этот список можно ещё очень долго продолжать.

Более подробный рассказ об AI и ML достоин отдельной публикации. Пока же я могу порекомендовать это видео, касающееся общих вопросов применения данных технологий. А вот — многочасовой видеоурок, посвящённый машинному обучению. Проработав эти видео, вы можете приобрести знания в сфере ML, соответствующие начальному или даже среднему уровню. Вы узнаете о множестве существующих алгоритмов машинного обучения, о том, как они устроены, и о том, как ими пользоваться. После этого у вас должно быть достаточно знаний для того чтобы приступить к созданию собственных простых ML-моделей. О том, как это сделать, можно почитать здесь.

Изучите способы публикации ML-моделей в интернете

Существуют инструменты, позволяющие публиковать ML-модели в интернете. Это позволяет дать к ним доступ всем желающим. Для того чтобы публиковать модели в интернете, нужно хорошее понимание процессов веб-разработки. Дело в том, что под «публикацией модели» понимается создание веб-страницы (или группы страниц), обеспечивающей возможность работы с моделью в браузере. Кроме того, нужно учитывать то, что фронтенд проекта, его интерфейс, должен обмениваться данными с бэкендом, с серверной частью проекта, где расположена сама модель. Для того чтобы строить подобные проекты, вы должны уметь создавать серверные API и пользоваться этими API в клиентской части приложений.

В том случае, если вы планируете публиковать модели в облачных средах, если собираетесь использовать технологию Docker, вам пригодится хорошее знание сферы облачных вычислений и DevOps.

На самом деле, существует множество способов развёртывания моделей в интернете. Я посоветовал бы начать с изучения того, как это делается с использованием веб-фреймворка Flask, основанного на Python. Вот хорошее учебное руководство об этом.

Найдите наставника

Самообучение — это прекрасно, но ничто не сравнится с обучением у профессионалов. Дело в том, что при таком подходе усваивается то, что используется в реальности, и в том, что так обучение идёт через практику. Многие вещи можно изучить только на практике. Обучение с наставником имеет множество сильных сторон, но надо учитывать то, что не каждый наставник способен оказать существенное влияние на вашу карьеру или жизнь. Именно поэтому очень важно найти хорошего наставника.

Например, эту задачу можно попытаться решить с помощью платформы Notitia AI. Здесь учащимся назначают персональных наставников, которые делают личный и профессиональный вклад в развитие учеников. Наставники доводят тех, кто хочет учиться, от начального до экспертного уровня в сферах DS, AI и ML. Notia AI, это, кроме того, самая доступная платформа такого рода.

Итоги

Учтите, что изучение курсов, чтение статей и просмотр видео не сделают из вас специалиста по работе с данными. Вам понадобится пройти сертификацию в специализированном учреждении. Кроме того, некоторые вакансии требуют наличия определённых документов об образовании. Вложите время в самообучение, сертифицируйтесь или получите документы об образовании, и вы будете готовы к реальной работе.

Как вы думаете, что нужно знать и уметь тому, кто стремится стать ценным специалистом в сферах искусственного интеллекта или машинного обучения?

Источник

Bigdata, машинное обучение и нейросети – для руководителей

Если менеджеру попытаться разобраться в этой области и получить конкретные бизнес-ответы, то, скорее всего, страшно заболит голова и екнет сердце от ощущения ежеминутно упускаемой выгоды.

«AlphaGo обыграл чемпиона по Go» впервые за всю историю человечества, скоро наши улицы заполонят беспилотные автомобили, распознавание лиц и голоса теперь в порядке вещей, а в квартиру к нам завтра постучатся AI-секс-куклы с грудью наивысшего размера с шампанским под мышкой и настраиваемым уровнем интенсивности и продолжительности оргазма.

Все оно так, но что делать-то прямо сейчас. Как на этом заработать в краткосрочной перспективе? Как заложить прочный фундамент на будущее?

Постараюсь дать исчерпывающие ответы на все мучающие вас вопросы, «вскрыть» подводные камни и, главное — здраво оценить риски в AI и научиться ими правильно управлять. Ведь то, что не понимаем, то и не “танцуем”.

Много «мути» и сложных слов

Это, пожалуй, самое страшное – когда бизнесмен «попадает на науку».

Если у человека от квадратного уравнения в школе до сих пор болит голова и подергивается правое ухо на левой ноге, то от слова «перцептрон» может вообще произойти потеря сознания и неконтролируемое мочеиспускание.

Поэтому дальше – говорим только понятными словами. Чтобы было легче – представим, что мы сидим в баньке, пьем пиво и рассуждаем человеческим языком.

«Умные» коробочки с очень высокими амбициями

Как проще всего понять принципы применения моделей машинного обучения в бизнесе? Представьте себе робота, или «умную» коробочку с претензией на решение сложнейших задач.

Решать такие задачи в лоб — нереально. Машине нужно буквально прописать миллионы правил и исключений – поэтому так никто не делает.

Делают иначе – «умные» коробочки обучают на данных, например о ваших клиентах. А если BigData у вас уже есть, то «умная» коробочка потенциально может стать еще «умнее» — опережая «коробочки» конкурентов или обычных сотрудников не только по скорости, но и по качеству решений.

Итого, делаем глоток пива и запоминаем – чем больше данных вы сможете достать, тем более «умной» станет ваша робо-коробочка.

Сколько нужно данных?

Комично, но у человечества до сих пор нет точного ответа на этот вопрос. Но зато известно, что чем больше «качественных» данных— тем лучше.

И только нейросети, как правило, лучше других известных сейчас способов, могут качественно вытащить информацию из этих данных.

На пальцах — принято считать, что различные алгоритмы НЕ на нейросетях способны обучаться на десятках, сотнях и тысячах (и даже больше) примеров. И даже неплохо работать. Но обучать их на реально больших объемах данных — часто бессмысленно и бесполезно. Подобные алгоритмы просто не в состоянии «впитать» в себя знания, сколько бы мы не пытались в них засунуть.

Нейросети же, особенно «глубокие», содержат каскады нейронных слоев и килограммы сложно объяснимых алгоритмических «потрохов». Им, часто, гораздо лучше «скармливать» сотни тысяч и миллионы примеров из BigData. Но… десятки и сотни примеров им не подойдут — они их просто запомнят и не смогут адекватно предсказывать будущее на новых данных.

Поэтому. Делаем глоток пива, обнимаем девушку за талию и запоминаем — если данных мало – то НЕ нейросети (а, например, catboost), если много – нейросети, а если данных очень много – то ТОЛЬКО нейросети. Сложные, интересные, привлекательные и «глубокие» (deep learning).

Какие нужны данные?

Комично до слез, но разумного ответа на этот вопрос пока тоже нет: cобирайте все, что можно и нельзя. За примером не нужно далеко ходить: крупные вендоры типа Google, Facebook, Amazon, Яндекс, Mail.ru успешно делают это уже многие годы, почти нас не спрашивая. Дальше — будет еще хуже.

Активность людей, интересы, пристрастия, перемещения, знакомые – все это фиксируется в часто достаточно обезличенной форме. Но… с привязкой к идентификатору человека.
Банально — по кукам в браузере или по номеру мобильного телефона. А когда к вам на сайт приходит кто-то в интернете, вы легко можете достать цифровую историю следов этой личности — и не важно, это Иван Иванович или «abh4756shja» — он интересуется ритуальными топорами, так покажем ему все их разновидности!

Если говорить более конкретно, то, например, от клиентов компании обычно собирают такую статистику:

Интернет-магазины обычно фиксируют посещенные страницы и их названия. заказанные товары, поисковые запросы, обращения в чат поддержки.

В итоге, забираемся на полочку повыше, там, где в баньке погорячее. Ибо дальше будет еще жарче. И фиксируем в голове – нужно собирать/покупать все что МОЖНО о наших клиентах. Все, что характеризует их активность, динамику и интересы.

Чем больше всякой биометрии и телеметрии мы соберем — тем лучше мы сможем потом обучить «умную коробочку» и дальше сможем оторваться от наших конкурентов.

Риски – качество данных

Рассмотрим пример. Допустим, мы пытаемся определить — беременна ли сотрудница нашей компании? Для этого предварительно собираем несколько параметров:

Если соберем десятки, а желательно сотни (тысячи) примеров и они не будут повреждены багами программистов то, скорее всего, наша предиктивная модель обучится хорошо. Но если мы решили собирать 500 параметров по каждой беременности, а статистики по поведению беременных сотрудниц у нас всего на 10 примеров из реальной жизни — это не сработает. Даже ребенок поймет — так «умная» коробочка ничему толковому не научится, т.к. данные будут сильно разряженными.

А бывает еще так, особенно в крупных компаниях. Вы — большой босс или маленький боссик, отвечающий за крупный рост конверсии (так тоже иногда бывает). Аналитики приносят вам данные о покупателях. Но глаза «дающих» спрятаны или бегают. Или выпучены в безумной отваге. В общем, вы сомневаетесь в качестве этой бигдаты. И это — правильно.

Чтобы распознать подвох — разузнайте об использовании инженерных практик в подразделениях разработки у технического директора:

Пишут ли команды программистов модульные и интеграционные тесты к коду?

К сожалению, часто бывает так: программист увольняется, а те, кто остался, не понимают «как оно работает». А дальше разработчики легко могут поломать код. В любой момент. Пока не узнают об этом из жалоб от разгневанных клиентов. Или об этом узнаете вы, когда не сможете обучить нейронку из-за «кривой» бигдаты.

Настроено ли автоматизированное тестирование и мониторинг инфраструктуры, которая собирает данные о ваших покупателях? Ведется ли точный учет и отработка ошибок? Или определить процент потерянных данных без экзорциста невозможно?

Если все это есть — то, скорее всего, вам принесли качественную bigdata, иначе — толку от собранных данных будет мало, но, все же, попробовать стоит.

Данные есть. Что дальше?

Хотите на пальцах понять, что умеет обученная на собранных данных «предиктивная» модель? В большинстве случаев она может ответить «да» или «нет», уверенно или не уверенно и … всё. Обязательно, прямо сейчас, напишите фразу «предиктивная» модель несколько раз на спине загорелой девушки, сидящей рядом на банной полке, затем нанесите несколько шлепков дубовым веником. Повторите.

Пример. Вы — интернет-провайдер. У вас есть условно-бесплатный клиент. Вы хотите предсказать, перейдет ли он на платный тариф или нет? Ведь если вы сможете заранее знать будущее и еще не проявленные склонности клиентов — вы сможете более эффективно использовать маркетинговый бюджет, работая с потенциальными и не обращая внимания на тех, кто и нас скоро уйдет от вас.

«Нейронка», в лучшем случае, после обучения на данных, ответит вам либо уверенное «да», либо неуверенное «да», либо уверенное «нет», либо неуверенное «нет». И тут нужно очень хорошо понять, как же правильно работать с понятием «уверенности» классификатора и потренироваться.

Допустим, вы отбираете только «уверенные» ответы модели – и вот тут может оказаться, что из 100 ваших клиентов, машина уверенно определит склонность стать платным только для 7 пользователей. А на самом деле у вас 50 потенциально платных клиентов. Т.е. модель, из-за вашей осторожности, не продемонстрировала весь свой предсказательный потенциал.

Если же вы снизите порог «уверенности» и начнете принимать менее уверенные ответы модели — она, скорее всего, вернет вам почти всех действительно потенциально платных клиентов, но и немало других, не платных — а что вы хотите получить, понизив точность?

И вот мы уперлись в понимание качества предиктивной модели или бинарного классификатора. Без него — дальше ну никак. На этой фразе вы можете подавиться, но ничего страшного — дальше будет только хуже 😉 Важно понять, что чем лучше вы натренировали модель, чем более адекватную архитектуру вы подобрали для нейросети, чем больше вы достали bigdata — тем точнее предсказательная модель приблизится к идеалу: предсказывать правильно. В понимании этого принципа — залог вашего успеха.

Сделайте глоточек пива и разберем еще один пример.

Качество бинарного классификатора

Допустим, вы собрали данные по 120 клиентам и вы точно знаете — 60 клиентов стали платными, 60 человек ничего не купили. Берем 100 примеров для обучения модели и 20 — для контроля.

Обучаем «умную» коробочку с помощью бесплатного софта и хотим проверить — а как она будет предсказывать поведение НОВЫХ клиентов? Задержитесь на этой фразе и прочувствуйте – бинарный классификатор уже обучен на статистике с уже известным исходом. Клиент или стал «платником», или нет. Ваша цель теперь — применить его на новых клиентах, которых Скайнет в глаза не видел, и заставить его предсказать – купит он ваш продукт или нет?

Поняли идею? У вас получился оракл, мать его за ногу! Оно действительно работает! В этом — сила и суть машинного обучения. Обучиться на исторических данных и предсказывать будущее!

Итак, вернемся на грешную землю.

Вы обучили «нейронку» на 100 клиентах. Берем оставшиеся 20, которые «умная» коробочка еще не видела и проверяем — что она скажет?

Вам заранее известно — 10 клиентов из оставшихся стали платными, а 10 – не стали.

В идеале классификатор должен «уверенно» ответить «да» по 10 и «уверенно» ответить «нет» по 10 оставшимся клиентам.

Порог «уверенности» установим в >=90% или >=0.9 из 1.0.

На этом этапе можно начать «крутить» порог уверенности вверх, часто получая гораздо меньше уверенных ответов, зато без ошибок (предсказание платника, когда на самом деле нужно было предсказать бесплатника): нужно было предсказать 10 платников из 10, а предсказали только 4.

И наоборот, если покрутить порог уверенности вниз – «коробочка» начнет делать больше предсказаний, но будет больше ошибаться и говорить на черное-белое и наоборот.

Еще раз: по порогу уверенности есть 2 варианта «выкручивания громкости»:

Чтобы не сойти с ума в оценке качества бинарных классификаторов, придумали простой параметр AUC. Чем он ближе к 1, тем ближе ваша модель к идеалу. И тем ближе вы к идеальному предсказанию покупок клиентов.

Еще раз, только проще, но теперь с KPI и премиями:

В общем, самое простое тут: установите вашей команде целевой KPI по качеству классификатора AUC — максимально приблизиться к показателю 1.0 и вы наверняка обойдете конкурентов!

Бизнес-применение «умных» коробочек

Вы еще живы? Правильно, дальше будет самое интересное.

Окунувшись в леденящую воду математики и протрезвев, предлагаю вернуться к девушкам и естественным удовольствиям.

Теперь вы знаете, что нужно для получения качественной «нейронки». А где их сейчас применяют? Да везде, где нужно получить ответ «да» или «нет»:

В «Битрикс24» мы успешно применяли и применяем бинарные классификаторы для предсказаний:

А еще весь этот хайтек сейчас активно применяют и в персонализации товаров и услуг, и в задачах CRM и где только не применяют и дальше будет хуже.

Персонализация услуг и автоматизация работы маркетинга

Я веду вас к одному правильному выводу: на кой крендиль делать лишнюю работу своими руками, если ее можно автоматизировать? Для этого — созданы программисты и для этого созданы предсказательные модели.

«Умные» коробочки и другие виды предиктивных моделей можно легко внедрить для автоматизации рутины, например, отдела маркетинга: авто-таргетирование рекламных предложений на сайте или в email-рассылке.

Так сделайте же это скорее! Интегрируйте в ваш интернет-магазин робота, который будет предлагать вашим посетителям персонализированные товары и услуги.
Конверсия и лояльность ваших клиентов гарантированно вырастет.

Самый простой способ это сделать — обучение нескольких бинарных классификаторов для каждой группы товаров. А еще лучше — для каждой предлагаемой услуги на основе бигдаты покупок ваших клиентов.

Потом, когда клиент вернется на ваш сайт, AI сразу «поймет» чем его можно «зацепить». Это же так просто.

Видите, сколько появилось простых и эффективных способов увеличить конверсию. Так реализуйте их скорее.

В чем подвох?

Да, это все просто. На самом деле.

Внедрить предиктивные модели, нарастить проектную мощность маркетинга и конверсию в CRM – действительно несложно. Более того – возможно вам вообще не придется ничего покупать. Софт для обучения «Скайнетов» сейчас совершенно бесплатный. И его полно.

Если совсем лень в пень – можно поднять модель в облаке и оплачивать лишь хостинг, например в Amazon Machine Learning.

Но почему мы видим такие технологии в основном только в западных компаниях, решениях и продуктах? Ответ прост – инертность, нежелание менеджмента среднего звена развивать эффективность компании. В конце концов, просто… всем пофиг.

Я искренне убежден, в ближайшее время нас захлестнет поток решений на базе предиктивной аналитики и «нейронного» маркетинга. Это хорошо видно по скорости внедрения машинного обучения в рекламные сервисы Facebook, Google, Яндекс и Mail.ru. Кто не внедрит — уступит место конкурентам.

Достаточно вспомнить относительно недавние возможности по выгрузке в Facebook или Google хэшей от емейлов и телефонов ваших клиентов и математическое расширение рекламной аудитории чтобы понять, что дальше будет только … лучше и веселее

Еще одна причина – маркетологи часто просто не понимают, что дает им машинное обучение! Сколько времени у них освободится на креатив, если закрыть рутинное таргетирование и персонализацию рекламных предложений и email-рассылок с помощью «Скайнетов»!

Поэтому я и пишу такие подробные обзорные статьи для менеджмента. Кто, кроме топ-менеджеров или инициативных сотрудников, сможет продвинуть в компаниях настолько революционные проекты?

План действий

В принципе, теперь вы знаете достаточно, чтобы эффективно внедрить машинное обучение, предиктивный маркетинг, повысить конверсию и автоматизировать кучу рутины.

Давайте я опишу конкретные шаги к цели:

Раз. С помощью подразделения разработки или руками одного талантливого инженера – собираете данные о клиентах или покупаете их. Начните со сбора данных на сайте или в мобильном приложении. 5 строк правильно работающего г… нокода — и вы начнете получать статистику уже через 72 часа

Два. Руками одного аналитика создаете несколько предиктивных моделей, они же – бинарные классификаторы. Можно вообще ничего не программировать, а сразу загрузить данные в Amazon Machine Learning (https://aws.amazon.com/aml/details/).

Три. Внедряете «Скайнет» в ваши бизнес-процессы на сайт и в мобильное приложение

ЧеРтыре. Собираете обратную связь по качеству работы предиктивных моделей. Например, через статистику, голосование, анкеты. Цель – убедиться, что ваш обученный AI нормально работает с реальными данными.

Есть очень простое правило – обновлять эти модели раз, скажем, в PI (пи) — месяцев. Кому-то чаще, кому-то реже.

Если конверсия выше, чем без использования моделей – значит можно модели не обновлять. Упала – обновляйте.

Пять. Направьте освободившиеся ресурсы из подразделения маркетинга для решения более насущных задач – например на подготовку более качественных презентаций, вычитку текстов, создание красивых текстов для таргетированной рекламы.

Теперь таргетированием и персонализацией у вас занимаются роботы, а творчеством – люди – как и задумано в «первый день творения».

Шесть. Наслаждайтесь эффективностью, ищите новые точки бизнеса, где предиктивные бинарные классификаторы смогут защитить людей от рутины!

Друзья, на этом у меня пока все. Удачи вам, успешной автоматизации рутины, послушных роботов и хорошего настроения!

Источник

Big Data, блокчейн, машинное обучение — объясняем термины на ёжиках

Искусственный интеллект Он же ИИ, Artificial Intelligence, AI

Большие данные Они же Big Data

Блокчейн От англ. Blockchain

Машинное обучение Оно же МО, Machine Learning, ML

1. Градиентный бустинг

От англ. Gradient Boosting

2. Нейронные сети

От англ. Artificial neural network

Модель машинного обучения Она же ML model

Фича От англ. feature — особенность, характеристика, свойство

Чем отличаются наука о данных, анализ данных и машинное обучение

Наука о данных

Что такое наука о данных?

Навыки, необходимые, чтобы заниматься наукой о данных

Машинное обучение

Начнем с главного. Что такое машинное обучение?

Что нужно, чтобы стать экспертом в машинном обучении?

Чем отличаются наука о данных и машинное обучение?

Анализ данных

Какие навыки нужны, чтобы работать в сфере анализа данных?

Наука о данных, искусственный интеллект, машинное обучение: путь самоучки

Изучите некоторые математические дисциплины

Научитесь программировать

Выберите один язык программирования и как следует в нём разберитесь

Научитесь собирать данные

Научитесь обрабатывать данные

Научитесь визуализировать данные

Искусственный интеллект и машинное обучение

Изучите способы публикации ML-моделей в интернете

Найдите наставника

Итоги

Bigdata, машинное обучение и нейросети – для руководителей

Много «мути» и сложных слов

«Умные» коробочки с очень высокими амбициями

Сколько нужно данных?

Какие нужны данные?

Риски – качество данных

Данные есть. Что дальше?

Качество бинарного классификатора

Бизнес-применение «умных» коробочек

Персонализация услуг и автоматизация работы маркетинга

В чем подвох?

План действий

Вам также понравится

я такая непостоянная то свожу с ума то схожу с ума

что такое очное обучение в техникуме

тренировки для наращивания мышечной массы для девушек

Добавить комментарий Отменить ответ

Искусственный интеллект
Он же ИИ, Artificial Intelligence, AI

Большие данные
Они же Big Data

Блокчейн
От англ. Blockchain

Машинное обучение
Оно же МО, Machine Learning, ML

Модель машинного обучения
Она же ML model

Фича
От англ. feature — особенность, характеристика, свойство