No Free Lunch Введение В Участие В Соревнованиях По Анализу Данных На Платформе Kaggle Хабр
Kaggle – это онлайн-сообщество Data Scientist’ов и специалистов по машинному обучению (machine learning). Когда на работе вам попадётся похожая задача, вы сразу понимаете, какие алгоритмы использовать и какую модель построить. На ресурсе Kaggle зарегистрировано более 5 миллионов пользователей. Сообщество позволяет совершенствовать свои навыки людям разного уровня подготовки, обучаться новому и закреплять знания на практике. Начинающие специалисты могут смотреть, как работают продвинутые пользователи.
Какие Данные Kaggle Можно Использовать Для Аналитики?
Kaggle — это платформа для соревнований по анализу данных и машинному обучению, где пользователи могут решать реальные задачи, делиться кодом и учиться у других. Если вы хотите начать участвовать в соревнованиях на Kaggle, это руководство поможет вам сделать первые шаги. Платформа была запущена в апреле 2010 года как площадка для проведения соревнований по машинному обучению, но сегодня это уже целая экосистема с более чем 16 млн зарегистрированных пользователей. Сейчас на Kaggle можно проходить курсы по AI, пользоваться облачными ресурсами для решения задач, общаться со специалистами по всему миру, искать работу и, конечно же, участвовать в соревнованиях.
- То есть можно успешно решить соревнование, купить себе яхту и отправиться в кругосветное путешествие.
- Высокий рейтинг на платформе помогает легко устанавливать контакты со многими известными участниками Kaggle, у вас появляется огромное количество друзей по всему миру.
- Пригодятся навыки загружать и визуализировать данные, свободно в них ориентироваться.
Более опытные коллеги могут дать совет или предложить решение. Кроме того, можно завести связи, найти полезную подборку материалов, узнать о новом интересном соревновании — влиться в жизнь платформы и при этом пассивно прокачивать навыки. Доступ к датасетам и образцам кода можно получить даже до регистрации. А вот писать комментарии и участвовать в соревнованиях могут только зарегистрированные пользователи. Чтобы вы легко могли попробовать сами, я решил включить эти методы в пакет featexp на Python, и в этой статье мы увидим, как их можно использовать для исследования признаков.
Здесь есть как вводные курсы для тех, кто никогда не программировал, так и разборы конкретных инструментов, например игрового AI. В IT-среде название Kaggle часто ассоциируется только с соревнованиями. Но на самом деле это полноценная социальная сеть и база данных для специалистов в сфере Data Science и ML. Доминирование градиентного бустинга до эпохи глубокого обучения, вероятно, неудивительно, особенно учитывая популярность табличных соревнований в то время. Конечно, потом, по мере того, как Kaggle добавлял все больше соревнований по CV и NLP, метод перестал быть настолько распространенным.
Аугментация – Это Важно?
В этой статье я хотел рассказать, как начать участвовать в соревнованиях Kaggle. Цели победить я не ставил, скорее хотелось показать вам, как подойти к соревнованию по машинному обучению, и продемонстрировать несколько решений. Хотя интуитивно кажется, что нужно использовать точность для задачи бинарной классификации, это будет плохим решением, потому что мы имеем дело с проблемой несбалансированного класса.
В жизни приходится побеждать всех — включая самого себя и своё предыдущее решение. На Kaggle вы исследуете продвинутые алгоритмы, фреймворки, библиотеки и прокачаете delicate expertise — упорство, настойчивость и умение работать в команде. Наконец, попробуете решить важные для всего человечества проблемы. Этот раздел, как, собственно, и вся статья — для новичков. https://deveducation.com/ Если вы профессионал, вероятно, и так найдёте, чем заняться. Но, как и говорилось выше, эта статья для начинающих дата-сайентистов, которые хотят присоединиться к комьюнити Kaggle.
Kaggle начал свою деятельность в 2010 году с проведения соревнований по машинному обучению. На данный момент Kaggle предоставляет платформу для публикации датасетов, для образования в области искусственного интеллекта (AI), а также облачную рабочую среду разработки. C 2011 года капитал компании был увеличен до 12.5 миллионов долларов. eight марта 2017 года Google объявил о Нагрузочное тестирование приобретении копманнии 1.
Описание Соревнования
Их оценки не приближают нас к вершине таблицы лидеров, но оставляют место для множества улучшений в будущем! Также мы получили представление о производительности, которую мы можем ожидать, используя всего лишь один источник с данными. Чтобы запустить весь notebook и записать новую версию, нужно нажать голубую кнопку Commit & Run в правом верхнем углу ядра. Это действие выполнит весь код и сохранит любые файлы, которые будут созданы во время запуска. Закоммитив notebook, мы сможем получить доступ к любым прогнозам, сделанным нашей моделью, и подать их на оценивание. Можно найти множество обучающих ресурсов по анализу данных — от Datacamp до Udacity, все они позволяют изучить науку о данных.
Вместо точности, решения оцениваются с помощью ROC AUC (Receiver Operating Characteristic curve Area Under the Curve). Я позволю вам самостоятельно разобраться в этом или почитать объяснение в pocket book. Чтобы вести подсчёты с помощью ROC AUC, нам нужно делать прогнозы в терминах вероятностей, а не бинарные — zero или 1. ROC показывает истинную положительную оценку по сравнению с ложно положительной оценкой, как функцию порога, согласно которому мы классифицируем экземпляр как положительный.
Одна из важных фишек Kaggle — участники могут публиковать краткое описание своего решения, так называемое kernel («ядро»). Изучение чужих решений kaggle соревнования может натолкнуть на новые идеи. Организаторы бесплатно предоставляют вычислительные ресурсы — не нужно тратиться на видеокарту или компьютер, для участия в конкурсах достаточно ноутбука и хорошего интернета.
Kaggle – это сообщество, где страсть к данным объединяет людей и вдохновляет на новые открытия. Опытные участники сообщества могут предложить свою помощь начинающим — поделиться опытом, дать рекомендации по развитию. Для этого Kaggle развивает собственную программу KaggleX Mentorship. Внутри каждого гайда — ссылки на все, что может пригодиться при освоении той или иной технологии. Это могут быть ноутбуки внутри самого Kaggle, YouTube-туториалы, Kaggle-курсы и обучение на других платформах, а также обсуждения. Кроме отдельных форумов, в разделе Discussions собраны все обсуждения, которые пользователи ведут на страницах моделей, датасетов или ноутбуков.
В этом я не сильно преуспел, только 5 из 87 (6%) соревнований я решал в командах. Думаю, если бы я чаще объединялся с другими участниками, результаты были бы выше. Также каждое соревнование имеет призовой фонд, в среднем это тысяч долларов, но были и несколько соревнований с призовыми в 1.2 млн и 1.5 млн долларов.