Американские ученые из Университета Карнеги-Меллона разработали
новую систему, которая должна существенно ускорить процесс оцифровки
текста, неподдающегося автоматической обработке в программах
оптического распознавания.
Исследователи подсчитали, что пользователи интернета ежедневно
распознают порядка 60 миллионов так называемых изображений CAPTCHA (от
английского Completely Automatic Public Turing Test to Tell Computers
and Humans Apart - полностью автоматический тест Тьюринга для
различения компьютеров и людей). Такие изображения применяются на
веб-сайтах с целью защиты от программ-роботов, осуществляющих
автоматическую регистрацию. Сотрудники Университета Карнеги-Меллона приняли время
распознавания одного изображения CAPTCHA за десять секунд и получили,
что ежедневно пользователи Сети тратят порядка 150 тысяч человеко-часов
на разгадывание зашумленных искусственным образом картинок. Эту энергию
исследователи предлагают расходовать на распознавание отсканированного
текста. Новая технология получила название reCAPTCHA.
Суть работы системы сводится к следующему. Пользователю предлагается
распознать два слова, одно из которых службе reCAPTCHA известно, а
второе - нет. Если пользователь правильно решает задачу с уже известным
ответом, то система reCAPTCHA считает, что он правильно распознал и
неизвестное слово. С целью повышения вероятности правильного
распознавания одно и то же слово предлагается в качестве изображений
CAPTCHA нескольким пользователям интернета.
Система reCAPTCHA может быть интегрирована в почтовые сервисы,
форумы и так далее. Дополнительную информацию о системе можно найти на этой странице.
|