Сбор данных от LabelMe: как Сослан Мамитов фото стихийных мусорок собирал
Периодически LabelMe сталкивается с кейсами, которые бросают вызов Сослану Мамитову — сооснователю LabelMe и главному менеджеру по работе с разметчиками. В этом случае выполнить заказ удалось совершенно неожиданным образом.
Задача: собрать 3000 фотографий переполненных мусорных урн и стихийных свалок (как после празднования НГ).
В уникальных кейсах сбора данных мы вырабатываем сразу несколько стратегий. После финального совещания каждое из потенциальных решений начинает прорабатывать отдельная команда специалистов LabelMe.
Поиски решения
Первый сценарий: поисковики
Первым делом мы отправились в поисковики, где формировали запросы на разных языках. Однако очень скоро мы отказались от этой идеи: релевантность выдачи была довольно посредственной и если совершать отбор, то мы бы точно не набрали 3000, а максимум 250 фотографий.
Второй сценарий: Google Maps
Вопреки всему, в России с чистотой улиц всё достаточно хорошо: в режиме просмотра найти переполненные контейнеры с мусором или стихийные свалки оказалось достаточно сложной задачей.
Далее мы решили сузить область поиска и начали гуглить гетто, африканские города и различные рейтинги загрязенности. Обнаружилось, что всё в мусоре в Кенсингтоне (Филадельфия).
Однако этот вариант не подошел заказчику.
Да, свалки жителей Кенсингтона стихийные, но они всё складывают в черные непрозрачные пакеты. Нам же был нужен более новогодний вариант и что-то близкое к замусоренности улиц СНГ. Мы обратились к украинским фрилансерам, но там тоже всё вышло неудачно.
Третий сценарий: фрилансеры
Далее мы попробовали решить задачу «в лоб», наняв фрилансеров для поиска стихийных свалок. Этот сценарий тоже не сработал, т.к. алгоритмизировать эту задачу нельзя: люди попросту не знают куда лучше идти (даже если гуглить все мусорки района).
Помимо всего прочего, тут играла роль личная заинтересованность исполнителей: они работали на время, а не на выполнение задачи. Сделать можно было, но сбор одной только даты по подсчетам обходился в 110 000 рублей.
Четвертый сценарий: Pikabu
Мы написали пост для Pikabu в надежде, что тот завирусится. В него были аккуратно «вшиты» ТЗ заказчика и призыв скидывать нужные фото нам на почту. Текст прочитало 13 000 человек и некоторая часть людей действительно стала скидывать фотографии. Тем не менее, этого оказалось недостаточно.
Решение
Отдельная группа специалистов мониторила релевантную информацию по российским городам. Очень быстро мы обнаружили новость, в которой говорилось о повышении цен генерального подрядчика Махачкалы. Компания, которая занималась вывозом мусора внезапно подняла тарифы на свои услуги. В итоге выполнение обязанностей по уборке улиц взяла на себя администрация города. Эти процессы у них были не отлажены и местную инфраструктуру быстро затопили горы мусора.
LabelMe связался с жителями Махачкалы и они подтвердили ситуацию в городе. Далее мы отослали референсы заказчику и он одобрил фотографии. После этого мы наняли фрилансеров по сценарию №3, но сумма сбора резко сократилась до 18 000 рублей. Заказ был успешно выполнен за 5 дней.
Форм-факторы цен
Не каждый кейс требует такого подхода. К примеру, у нас отлично отлажена система сбора лиц. В этом случае для вас сбор данных будет быстрым и максимально доступным.
Чем раньше предупредите о задаче, тем дешевле выйдет сбор данных в итоге. Это значит, что у команды будет время подготовиться и отладить все рабочие процессы до выполнения заказа.
Уточнить информацию по сбору данных для вашей задачи, получить бесплатный тестовый датасет и задать любые другие вопросы можно в переписке с CEO LabelMe Георгием Каспарьянцем [Написать в Telegram]