Сбор данных для многих проектов ИИ, без сомнения, является самой дорогой частью проекта. Маркировка данных, таких как изображения и текстовые фрагменты, — тяжелая и утомительная работа без особой возможности масштабирования. Если для проекта искусственного интеллекта требуются постоянно обновляемые или свежие данные, это может быть высокой стоимостью, которая может бросить вызов всему бизнес-кейсу отличного в остальном проекта.
Однако есть несколько стратегий для снижения затрат на маркировку данных. Я уже писал о Активное изучение; стратегия сбора данных, которая направлена на определение приоритетов маркировки наиболее важных данных в первую очередь с учетом самой слабой достоверности моделей. Это отличная стратегия, но в большинстве случаев вам все равно нужно маркировать большое количество данных.
Чтобы ускорить процесс маркировки, появилась стратегия маркировки с помощью моделей. Идея заключается в том, что вы обучаете ИИ параллельно с маркировкой, и когда ИИ начинает видеть закономерность в данных, ИИ будет предлагать метки маркировщику. Таким образом, этикетировщик во многих случаях может просто утвердить предварительно предложенную этикетку.
Маркировка с помощью модели может быть выполнена как путем обучения модели исключительно для целей маркировки, так и путем помещения фактической производственной модели в цикл маркировки и предоставления ей возможности маркировки.
Но является ли маркировка с помощью моделей надежным способом более быстрой маркировки данных? Или у стратегии есть недостатки? Я интенсивно работал с маркировкой с помощью моделей и точно знаю, что есть как плюсы, так и минусы, и если вы не будете осторожны, эта стратегия может принести больше вреда, чем пользы. Если вы управляете им правильно, он может творить чудеса и сэкономить массу ресурсов.
Итак, давайте взглянем на плюсы и минусы.
Плюсы
Первое и главное преимущество заключается в том, что человеку, работающему с маркировкой, быстрее работать с предварительно маркированными данными. Утверждение метки одним щелчком мыши в большинстве случаев и необходимость вручную выбирать метку только время от времени — это намного быстрее. Особенно при работе с большими документами или моделями с большим количеством потенциальных меток скорость может значительно увеличиться.
Еще одно действительно полезное преимущество маркировки с помощью моделей заключается в том, что вы очень рано получаете представление о слабых местах моделей. Вы получите практическое понимание того, какие экземпляры модели трудно понять и которые обычно неправильно маркируются. Это отражается на результатах, которые вы должны ожидать в производстве, и, как результат, у YouTube есть шанс на раннем этапе улучшить или обойти эти слабые места. Когда вы видите слабые места в модели, это также часто указывает на отсутствие объема или качества данных в этих областях. Таким образом, это также дает представление о том, какие данные вы должны искать, чтобы их больше помечали.
Минусы
Теперь о минусах. Как я уже упоминал, минусы могут быть довольно плохими. Самая большая проблема с маркировкой с помощью моделей заключается в том, что вы рискуете снизить качество своих данных. Таким образом, даже если вы получаете маркировку большего количества данных быстрее с меньшим качеством, вы можете получить модель, работающую хуже, чем если бы вы не использовали маркировку с помощью модели.
Так как же маркировка с помощью модели может снизить качество данных? Это на самом деле очень просто. Люди, как правило, предпочитают значения по умолчанию. Как только вы переключитесь на автопилот, вы начнете делать ошибки, с большей вероятностью выбрав метку по умолчанию или предложенную. Я видел это снова и снова. Самый большой источник ошибок при навешивании ярлыков — принятие неправильных предложений. Так что вы должны быть очень осторожны, предлагая ярлыки.
Еще одним недостатком может быть то, что качество предварительной маркировки просто настолько низкое, что этикетировщику требуется больше времени для исправления, чем если бы он начал с пустого ответа. Поэтому вам нужно быть осторожным, чтобы не включить предварительную маркировку слишком рано.
Несколько советов по маркировке с помощью моделей
У меня есть несколько советов, как добиться большего успеха с маркировкой с помощью моделей.
Первый совет — установить цель для качества данных. В любом случае вы никогда не получите 100% правильных данных, поэтому вам придется принять некоторое количество неправильных меток. Если вы можете установить цель, приемлемую для обучения модели, вы можете следить за тем, чтобы маркировка с помощью модели не приносила больше вреда, чем пользы. Это также отлично работает в качестве выравнивания ожиданий в вашей команде в целом.
Я также предлагаю делать образцы без предварительной маркировки, чтобы измерить, есть ли разница между результатами, которые вы получаете с предварительной маркировкой и без нее. Вы просто делаете это, отключая вспомогательную модель, например, в одном из десяти случаев. Это легко и покажет много правды.
Наконец, я предлагаю один из моих фаворитов. Вероятностное программирование модели очень полезны для маркировки с помощью моделей. Вероятностные модели являются байесовскими и в результате предлагают неопределенность в распределениях вместо скаляров (числа) и значительно упрощают определение того, будет ли предварительная метка правильной или нет.