Группа компаний GIP GROUP добилась первых результатов в области компьютерного зрения за 3 недели работы над задачей.
Изначально идея была следующая: использовать только открытые библиотеки со свободными лицензиями.
Использовать только сырые датасеты, без готовых «коробочных» решений. т.е. реально посмотреть как это всё работает «под» капотом.– Евгений Федулов, соучредитель ГК GIP GROUP и руководитель AI LAB
Первая попытка разметки данных оказалась неудачной: была выбрана некорректная модель ResNet для классификации изображений, а не для детекции объектов.
После проведенных исследований и доработок нейронных сетей выбор пал на двухслойную предобученную модель Faster R-CNN (лицензия MIT). Поверх неё нам пришлось дополнительно разработать собственный регрессор (модель над моделью).
В интернете были собраны 1000 фотографий экскаваторов и грузовиков.
В целом, наблюдалась достаточно высокая погрешность, составляющая 27-28%. На тестовой выборке результаты оказались ещё менее удовлетворительными — 30-35% с вылетающими значениями.
Результаты на изображениях: