Когда я пишу об ИИ, я очень часто имею в виду операции с данными и то, насколько они важны для большинства решений ИИ. Без надлежащих операций с данными вы можете легко добраться до точки, когда обработка необходимых данных будет слишком сложной и дорогостоящей для бизнес-кейса ИИ, чтобы иметь смысл. Поэтому, чтобы немного прояснить, я хотел дать вам некоторое представление о том, что это на самом деле означает.
Операции с данными — это процесс получения, очистки, хранения и доставки данных безопасным и экономичным способом. Это сочетание бизнес-стратегии, DevOps и науки о данных, лежащее в основе цепочки поставок многих решений для больших данных и искусственного интеллекта.
Первоначально термин «операции с данными» использовался в термине «большие данные», но в последующие годы он стал более широко используемым термином.
Операции с данными — важнейшее конкурентное преимущество
Как я упоминал во многих предыдущих сообщениях, я считаю операции с данными более приоритетными, чем разработка алгоритмов, когда речь идет о попытке победить в конкурентной борьбе. В большинстве случаев с ИИ используются стандартные алгоритмы ИИ из стандартных фреймворков, которые получают данные, обучаются и немного настраиваются перед развертыванием. Итак, поскольку лежащие в основе алгоритмы в основном одинаковы, реальная разница заключается в данных. Работа, которая требуется для получения хороших результатов из высококачественных данных, почти ничто по сравнению с объемом работы, который требуется при использовании посредственных данных. Получение данных по более низкой цене, чем у конкурентов, также является очень важным фактором. Особенно в случаях ИИ, которые требуют непрерывного потока новых данных. В этих случаях постоянное получение новых данных может стать экономическим бременем, которое утяжелит бизнес.
Операции с данными Пример Paperflow
Чтобы сделать это более конкретным, я хотел использовать компанию искусственного интеллекта, соучредителем которой я был. Бумажный поток В качестве примера. Paperflow — это компания с искусственным интеллектом, которая получает счета-фактуры и другие финансовые документы и собирает такие данные, как дата счета-фактуры, суммы и строки счета-фактуры. Поскольку счета-фактуры могут выглядеть очень по-разному, а макет счетов-фактур меняется со временем, необходимо постоянно получать много и все больше данных. Поэтому, чтобы сделать Paperflow хорошим бизнесом, нам нужны были хорошие операции с данными.
Честно говоря, мы не осознавали их важность, когда принимали эти первоначальные решения, но, к счастью, мы все сделали правильно. Нашим первым важным решением в работе с данными было то, что мы хотели собирать все данные внутри компании и создать собственную систему для сбора данных. Это дорогостоящее вложение, связанное как с большими вложениями в первоначальную разработку системы, так и с высокими текущими расходами для наших сотрудников, которые вводят данные из счетов-фактур в систему. Конкуренция выбрала другую стратегию. Вместо этого они заставляли клиентов вводить данные счетов в свою систему, когда их ИИ не мог сделать правильный прогноз по захваченным данным. Это гораздо более дешевая стратегия, которая может предоставить вам много данных. Единственная проблема заключается в том, что клиенты имеют в виду только одно: решать свои собственные проблемы, не обращая внимания на то, правильно это или нет с точки зрения того, что вам нужно для обучения данных.
Итак, в Paperflow мы нашли способ получить более качественные данные. Но как тогда снизить расходы?
Частью решения было вложение значительных средств в систему, которая использовалась для ввода данных, и попытка сделать ее максимально быстрой в использовании. Это были действительно пробы и ошибки, и это потребовало много работы. Не имея реальных цифр, я думаю, мы вложили больше средств в реальные операционные системы данных, чем в ИИ.
Другая часть решения заключалась в том, чтобы убедиться, что мы собираем только те данные, которые нам действительно нужны. Это распространенная проблема в операциях с данными, поскольку очень сложно понять, какие данные вам потребуются в будущем. Наше решение состояло в том, чтобы сначала собрать много данных (и слишком много), а затем постепенно сужать количество собранных данных. Идти наоборот может быть сложно. Если бы мы вдруг начали собирать больше данных по каждому счету-фактуре, нам, по сути, пришлось бы начинать заново и отбрасывать все ранее подтвержденные счета-фактуры.
Мы также начали много работать над пониманием очень важной метрики. Когда наши догадки ИИ были настолько правильными, что мы доверяли ему и избегали проверки части данных. Это было достигнуто с помощью различных уловок и технологий, одна из которых вероятностное программирование. Преимущество вероятностного программирования заключается в предоставлении распределения неопределенности вместо процента, которое будет делать большинство алгоритмов машинного обучения. Знание того, насколько вы уверены в своей уверенности, значительно снижает риск совершения ошибок.
Стратегия сбора только тех данных, которые вам нужны больше всего, путем выбора случаев, когда ваш ИИ является наиболее ненадежным, также известна как активное изучение. Если вы работаете над операциями с данными для ИИ, вам обязательно стоит это изучить.
Проблемы работы с данными DevOps
В более технологичной части эффективного хранения данных вы также столкнетесь с проблемами. Я не эксперт DevOps, но я видел проблему внезапного появления слишком большого количества данных, которые в реальной жизни растут быстрее, чем ожидалось. Это может иметь решающее значение, поскольку способность к быстрому масштабированию оказывается под давлением. Если бы я мог дать здесь один совет, он заключался бы в привлечении DevOps к работе над архитектурой на раннем этапе. Строить на масштабируемой основе гораздо веселее, чем постоянно искать краткосрочные решения.