Сбор данных от LabelMe: как Сослан Мамитов фото стихийных мусорок собирал

LabelMe_media
3 min readFeb 2, 2021

--

Периодически LabelMe сталкивается с кейсами, которые бросают вызов Сослану Мамитову — сооснователю LabelMe и главному менеджеру по работе с разметчиками. В этом случае выполнить заказ удалось совершенно неожиданным образом.

Задача: собрать 3000 фотографий переполненных мусорных урн и стихийных свалок (как после празднования НГ).

В уникальных кейсах сбора данных мы вырабатываем сразу несколько стратегий. После финального совещания каждое из потенциальных решений начинает прорабатывать отдельная команда специалистов LabelMe.

Поиски решения

Первый сценарий: поисковики

Первым делом мы отправились в поисковики, где формировали запросы на разных языках. Однако очень скоро мы отказались от этой идеи: релевантность выдачи была довольно посредственной и если совершать отбор, то мы бы точно не набрали 3000, а максимум 250 фотографий.

Второй сценарий: Google Maps

Вопреки всему, в России с чистотой улиц всё достаточно хорошо: в режиме просмотра найти переполненные контейнеры с мусором или стихийные свалки оказалось достаточно сложной задачей.

Далее мы решили сузить область поиска и начали гуглить гетто, африканские города и различные рейтинги загрязенности. Обнаружилось, что всё в мусоре в Кенсингтоне (Филадельфия).

Однако этот вариант не подошел заказчику.

Да, свалки жителей Кенсингтона стихийные, но они всё складывают в черные непрозрачные пакеты. Нам же был нужен более новогодний вариант и что-то близкое к замусоренности улиц СНГ. Мы обратились к украинским фрилансерам, но там тоже всё вышло неудачно.

Третий сценарий: фрилансеры

Далее мы попробовали решить задачу «в лоб», наняв фрилансеров для поиска стихийных свалок. Этот сценарий тоже не сработал, т.к. алгоритмизировать эту задачу нельзя: люди попросту не знают куда лучше идти (даже если гуглить все мусорки района).

Помимо всего прочего, тут играла роль личная заинтересованность исполнителей: они работали на время, а не на выполнение задачи. Сделать можно было, но сбор одной только даты по подсчетам обходился в 110 000 рублей.

Четвертый сценарий: Pikabu

Мы написали пост для Pikabu в надежде, что тот завирусится. В него были аккуратно «вшиты» ТЗ заказчика и призыв скидывать нужные фото нам на почту. Текст прочитало 13 000 человек и некоторая часть людей действительно стала скидывать фотографии. Тем не менее, этого оказалось недостаточно.

Решение

Отдельная группа специалистов мониторила релевантную информацию по российским городам. Очень быстро мы обнаружили новость, в которой говорилось о повышении цен генерального подрядчика Махачкалы. Компания, которая занималась вывозом мусора внезапно подняла тарифы на свои услуги. В итоге выполнение обязанностей по уборке улиц взяла на себя администрация города. Эти процессы у них были не отлажены и местную инфраструктуру быстро затопили горы мусора.

Коллаж из фото стихийных свалок, сделанных в Махачкале

LabelMe связался с жителями Махачкалы и они подтвердили ситуацию в городе. Далее мы отослали референсы заказчику и он одобрил фотографии. После этого мы наняли фрилансеров по сценарию №3, но сумма сбора резко сократилась до 18 000 рублей. Заказ был успешно выполнен за 5 дней.

Форм-факторы цен

Не каждый кейс требует такого подхода. К примеру, у нас отлично отлажена система сбора лиц. В этом случае для вас сбор данных будет быстрым и максимально доступным.

Чем раньше предупредите о задаче, тем дешевле выйдет сбор данных в итоге. Это значит, что у команды будет время подготовиться и отладить все рабочие процессы до выполнения заказа.

Уточнить информацию по сбору данных для вашей задачи, получить бесплатный тестовый датасет и задать любые другие вопросы можно в переписке с CEO LabelMe Георгием Каспарьянцем [Написать в Telegram]

--

--

LabelMe_media
LabelMe_media

Written by LabelMe_media

Сбор и разметка данных для машинного обучения. Наш сайт: https://labelme.ru/

No responses yet