В рамках конференции по науке о данных 2023 года (DSCO 23) AWS в партнерстве с Институтом данных Университета Сан-Франциско (USF) провела дататон. Участники, как старшеклассники, так и студенты, соревновались в проекте по науке о данных, посвященном качеству воздуха и устойчивому развитию. Институт данных USF стремится поддерживать междисциплинарные исследования и образование в области науки о данных. Институт данных и Конференция по науке о данных представляют собой своеобразное сочетание передовых академических исследований и предпринимательской культуры технологической отрасли в районе залива Сан-Франциско.
Студенты использовали Amazon SageMaker Studio Lab — бесплатную платформу, предоставляющую среду JupyterLab с вычислительными ресурсами (ЦП и ГП) и хранилищем (до 15 ГБ). Поскольку большинство студентов не были знакомы с машинным обучением (ML), им дали краткое руководство иллюстрирует, как настроить конвейер машинного обучения: как проводить исследовательский анализ данных, разработку функций, построение и оценку модели, а также как настроить логические выводы и мониторинг. Учебное пособие, на которое ссылается Инициатива по данным об устойчивом развитии Amazon (ASDI)) наборы данных Национального управления океанических и атмосферных исследований (НОАА) и OpenAQ построить модель машинного обучения для прогнозирования уровня качества воздуха с использованием данных о погоде посредством двоичной классификации. Автоглюон модель. Затем студентам разрешили работать над собственными проектами в своих командах. Команды-победители возглавлялись Питером Ма, Беном Велнером и Эй Колтином, которые были награждены призами на церемонии открытия конференции по науке о данных в USF.
Ответ с мероприятия
«Это было веселое мероприятие и отличный способ поработать с другими. На уроках я немного изучил программирование на Python, но это помогло воплотить это в жизнь. Во время дататона мы с членом моей команды провели исследование различных моделей машинного обучения (LightGBM, логистическая регрессия, модели SVM, случайный лесной классификатор и т. д.) и их производительность на наборе данных AQI от NOAA, направленных на обнаружение токсичности атмосферы в конкретных условиях. погодные условия. Мы создали классификатор повышения градиента, чтобы прогнозировать качество воздуха на основе статистики погоды».
– Анай Пант, ученица Афинской школы в Данвилле, Калифорния, и одна из победительниц дататона.
«ИИ становится все более важным на рабочем месте, и 82% компаний нуждаются в сотрудниках с навыками машинного обучения. Крайне важно развивать таланты, необходимые для создания продуктов и опыта, которые принесут пользу всем нам, включая разработку программного обеспечения, науку о данных, знание предметной области и многое другое. Мы были рады помочь следующему поколению строителей изучить машинное обучение и поэкспериментировать с его возможностями. Мы надеемся, что они продвинутся в этом направлении и расширят свои знания в области машинного обучения. Лично я надеюсь однажды использовать приложение, созданное одним из студентов на этом дататоне!»
– Шерри Маркус, директор лаборатории решений AWS ML.
«Это первый год, когда мы используем SageMaker Studio Lab. Мы были довольны тем, как быстро старшеклассники/бакалавры и наши наставники аспирантов смогли начать свои проекты и сотрудничать с помощью SageMaker Studio».
– Дайан Вудбридж из Института данных Университета Сан-Франциско.
Начните работу со Studio Lab
Если вы пропустили этот дататон, вы все равно можете зарегистрируйте свою учетную запись Studio Lab и работать над собственным проектом. Если вы заинтересованы в проведении собственного хакатона, обратитесь к представителю AWS за реферальным кодом Studio Lab, который предоставит вашим участникам немедленный доступ к сервису. Наконец, вы можете поискать вызов следующего года в Институте данных USF.
Об авторах
Неха Нарвал — инженер по машинному обучению в AWS Bedrock, где она участвует в разработке больших языковых моделей для генеративных приложений искусственного интеллекта. Ее внимание сосредоточено на стыке науки и техники, влияющем на исследования в области обработки естественного языка.
Видья Сагар Равипати является менеджером по прикладным наукам в Инновационном центре генеративного искусственного интеллекта, где он использует свой обширный опыт работы с крупномасштабными распределенными системами и свою страсть к машинному обучению, чтобы помочь клиентам AWS в различных отраслях промышленности ускорить внедрение искусственного интеллекта и облака.