Не ориентируйтесь на данные в ИИ — Дэн Роуз, ИИ

Машинное обучение

Не ориентируйтесь на данные в ИИ — Дэн Роуз, ИИ | DeepTech

DEEPTECH

July 14, 2023

Управление данными обычно используется и понимается с положительной коннотацией, но когда я слышу это слово, я немного беспокоюсь о решениях, основанных на данных, которые могут вот-вот произойти. Позвольте мне объяснить, почему.

Согласно Википедии, управляемый данными означает: «Прилагательное, управляемый данными, означает, что прогресс в деятельности определяется данными, а не интуицией или личным опытом». Другими словами, смотрите на данные как на основной источник информации, на основе которой нужно действовать. Когда данные дают вам повод действовать, вы действуете. На первый взгляд это может показаться очень разумным способом работы, особенно в области ИИ, которая во многом зависит от данных. Но на самом деле управление данными может быть очень проблематичным при работе с ИИ. Я на самом деле думаю, что люди, которые говорят, что они управляются данными, в целом находятся на неправильном пути. Это не значит, что я против приложения больших усилий для понимания ваших данных. На самом деле я твердо верю в то, что сбор, понимание и подготовка данных для проектов ИИ должны быть деятельностью, на которую выделяется больше всего ресурсов. Так что я за хорошую науку о данных, но против того, чтобы ею управляли данные, и я вижу в этом две совершенно разные вещи.

Но тогда почему так проблематично работать с данными?

Мой основной аргумент заключается в том, что движущей силой принятия решений и действий должны быть не имеющиеся у вас данные, а скорее любопытство к проблеме и окружающему миру. В некотором смысле это означало бы, что вы руководствуетесь данными, которых у вас нет. Конечная цель проектов ИИ часто состоит в том, чтобы решить проблему или улучшить процесс, и решения для этого не всегда существуют в данных, которые вы сгенерировали, или генерируются текущими мировыми решениями. Так что вместо этого вы должны быть движимы любопытством или, по крайней мере, проблемами. Это означает, что вы не должны подходить к проблемам, глядя на свои данные и делая выводы. Вы должны смотреть на свои данные и искать слепые зоны и оттуда проявлять любопытство. Что ты не знаешь? Я вернусь к любопытству позже. Во-первых, у меня есть еще несколько аргументов против управления данными.

У вас крайне редко будут все данные, относящиеся к проблеме. Даже после исчерпания всех потенциальных источников данных. Поэтому, когда вы делаете выводы на основе имеющихся у вас данных, вывод, по крайней мере, всегда будет немного ошибочным. Это не означает, что данные бесполезны и выводы бесполезны, но вы всегда будете хотя бы немного неправы. Как сказали бы статистики: «все модели ошибочны, но некоторые из них полезны».

Еще одна проблема, связанная с ориентацией на данные, заключается в том, что существует мнение, что решения, принимаемые на основе данных, лучше, чем решения, принимаемые на основе интуиции. И хотя иногда это может быть правдой, данные не однозначны и могут быть очень полезными в одних случаях и вводить в заблуждение в других.

Примером может служить отец современной статистики Рональд Фишер, который также, оглядываясь назад, был слишком ориентирован на данные. Он упрямо придерживался своего вывода о том, что данные свидетельствуют о том, что рак легких не является результатом курения. Корреляция, по его словам, должна быть обратной, и люди с раком легких или с более высоким риском рака легких просто чаще курят. Он утверждал, что это либо генетическая связь, либо больные раком используют курение, чтобы успокоить боль в легких. Таким образом, даже лучшие статистики могут рассказывать истории, далекие от правды на основе данных.

Последняя проблема с данными — это их способность рассказать вам историю, которую вы хотите. Это можно делать сознательно или бессознательно. Известная цитата экономиста Рональда Кейса гласит: «Если вы будете пытать данные достаточно долго, они признаются в чем угодно», поэтому нет уверенности в том, что вывод, который вы получите на основе данных, верен. Интерпретация может быть очень предвзятой, и иногда мы искажаем данные, даже не осознавая этого сами.

О любопытстве

Итак, как и обещал, я возвращаюсь к любопытству. Если бы мне пришлось выбрать одно ключевое слово, чтобы добиться успеха с ИИ, это было бы любопытство. Проекты ИИ обычно начинаются с процесса оптимизации или проблемы, которую необходимо решить, и перед обучением модели на данных вы должны быть заинтересованы в проблеме. Таким образом, данные поступают впоследствии к проблеме и в результате становятся более актуальными и более специфичными для этой проблемы.

Любопытство для меня означает исследование с минимальным количеством предубеждений. Лучший пример для меня — это когда дети поднимают камни с земли, чтобы посмотреть, что находится под камнем. Если вы когда-нибудь видели, как ребенок делает это, вы должны были видеть, что в нем нет никаких ожиданий, только волнение до и после того, как камень был поднят. И это именно то, что любопытство делает с практикующим. Это приводит к возбуждению, которое, в свою очередь, приводит к страсти. Страсть делает все намного проще, и даже утомительные части проекта будут казаться легкими.

ИИ также носит исследовательский характер, и именно поэтому он так хорошо подходит для любопытства. Если в исследовательском процессе есть определенные ожидания, то разочарование почти гарантировано.

В результате вы должны позволить любопытству быть основной движущей силой решений и действий, которые вы принимаете. Управление данными носит реактивный характер, и если вы хотите быть инновационным в решении проблем, вы должны быть активными. Чтобы быть активным, нужно проявлять любопытство к своим слепым и руководствоваться неизвестным.

О любопытстве

LEAVE A REPLY Cancel reply