Результаты недавнего опроса команд машинного обучения свидетельствуют о том, что самой большой проблемой, с которой сталкиваются специалисты при обучении и самообразовании искусственного интеллекта, является качество предоставляемых данных. Об этом заявило свыше 30% опрошенных респондентов. Всего в исследовании участвовало порядка 1,3 тыс. инженеров-практиков.
На втором месте по масштабности проблем обучения ИИ следуют трудности со сбором, анализом, хранением и версионированием образовательной информации. Своевременное и эффективное решение таких задач не менее важно, поскольку без оперирования качественными данными, команды по машинному обучению нередко сталкиваются с трудностями моделирования.
Третье место среди всех проблем занимают сложности со структурированием данных. Инженеры команд МО признались, часто они не могут быстро разобраться с объемами, сложностью и классификацией полученных в распоряжение данных. В свою очередь, задержки с подбором информации влекут за собой увеличение периода развертывания перспективных МО-программ. Кроме того, не имея высококачественных данных, команды МО лишены возможности создания надежных, безотказных моделей обучения.
Что касается сопутствующих трудностей, более 65% респондентов сообщило о том, что систематически испытывают проблемы с так называемыми шумом данных, смещением данных и доменными пробелами. По результатам опроса, с этим сталкивалось соответственно 67%, 47% и 46% опрошенных. Только 9% респондентов не работало с упомянутыми багами.
Порядка 73% опрошенных признались, что хотя бы один раз использовали в своих проектах синтетическую информацию из-за неадекватности примеров граничных ситуаций в реальном мире, а также из-за юридических барьеров и требований конфиденциальности реальных данных.
Источник фото: skesov.ru