Статьи

reCAPTCHA: удивительное использование потерянного времени, которое работает

Чуть более года назад исследовательская группа в Университете Карнеги-Меллона запустила reCAPTCHA , подключаемый модуль CAPTCHA для веб-сайтов, который выполняет двойную задачу: борется со спам-ботами и помогает интернет-архиву и другим клиентам разобраться в оцифрованном печатном контенте. ,

CAPTCHA, те, которые трудно читать изображения веб-сайтов, иногда просят вас ввести перед отправкой данных формы, могут быть эффективным способом борьбы со спамом, но они также огромные затраты времени. Каждый день в Интернете люди сталкиваются с колоссальными 200 миллионами изображений CAPTCHA, а их расшифровка занимает 500 000 часов. Система reCAPTCHA блестяще использует это время, чтобы заставить людей работать, читая отсканированный текст, который программное обеспечение оптического распознавания (OCR) испытывало с трудом для понимания.

Служба, которая в настоящее время используется 40 000 веб-сайтов, использует простую технику, чтобы заставить людей помочь в поиске неизвестных отсканированных слов. Каждый блок reCAPTCHA предоставляет пользователям два слова: одно, которое система знает как правильное (контрольное слово), и другое, которое неизвестно. Если пользователь получает правильное контрольное слово, система может предположить, что другое слово также имеет высокую вероятность быть правильным. Если достаточное количество пользователей вводят одно и то же слово для этого слова, оно может использоваться в качестве контрольного слова.

Из этих 200 миллионов ежедневных CAPTCHA reCAPTCHA обслуживает около 4 миллионов, что является «эквивалентом 1500 человек, работающих полный рабочий день и транскрибирующих 60 слов в минуту», согласно отчету Science за месяц . Служба, которая бесплатна для использования веб-сайтами, расшифровала 440 миллионов слов для клиентов за последний год.

Согласно Ars Technica , reCAPTCHA также очень точна. В тесте, в котором использовалась случайная выборка из 250 статей New York Times за разные периоды времени, программное обеспечение OCR само по себе показало точность всего 84%. Однако в сочетании с reCAPTCHA рейтинг точности вырос до 99,1%. Это, говорит Арс, сравнимо с профессиональными службами транскрипции, в которых работают два эксперта по транскрипции, чья работа проверена третьей стороной.

Легко увидеть, как использование reCAPTCHA толпы намного более рентабельно. Кроме того, Ars сообщает, что программное обеспечение, предназначенное для взлома изображений CAPTCHA, не работает на reCAPTCHA, вероятно, потому, что искажения букв на отсканированных изображениях не являются результатом «чистого математического преобразования», и, следовательно, их трудно исправить компьютеру.

reCAPTCHA — это просто блестящее использование по сути потерянного времени, и мне приятно слышать, что оно работает. Когда я впервые написал о программе в прошлом году для ReadWriteWeb, я заметил, что в колледже один из моих классов был частью проекта по оцифровке старых морских журналов. Мы использовали дорогие накладные сканеры и красивое программное обеспечение для оптического распознавания текста, но даже в этом случае большая часть нашего времени была потрачена на исправление ошибок, допущенных программным обеспечением. Система reCAPTCHA была бы долгожданным дополнением к нашей работе.