catpad: (Default)
[personal profile] catpad

Когда случайно видишь простые и гениальные идеи, пройти мимо них просто не получается. Так и тянет написать.
Вот одна из таких идей: http://recaptcha.net

Если кто не знает, что такое captcha, то это такая штука с размазанными буквами-цифрами, которые обычно надо вводить при регистрации на какой-либо сайт. Это на самом деле маленький тест Тьюринга, который позволяет определить, где человек, а где компьютер. Сама по себе задача придумать идеальную капчу очень интересна, и есть очень даже неплохие идеи - но это отдельная тема.

Так вот, что придумали в проекте reCaptcha. Подсчитано, что каждый день люди решают примерно 60 миллионов капчей. И вот они решили поставить это бессмысленное занятие на службу распознавания просканированных книг.
Идея такова: несколько OCR программ распознают один и тот же текст. Если они не могут согласиться насчёт какого-либо слова, это слово поступает в качестве задания для капчи и даётся людям при регистрации на какой-нибудь сайт, участвующий в проекте. Проблема тут в том, что значение этого слова пока что никому не известно, а поэтому для распознавания даётся ещё и контрольное слово. Если человек распознал контрольное слово, то его ответ на слово под вопросом принимается в качестве кандидата. Потом это же слово даётся для распознавания ещё нескольким людям, и если они все распознали его одинаково, слово утверждается, и само становится контрольным.

Таким образом, люди, сами того не подозревая, помогают OCR-программам в распознавании книг. Польза выходит всем: бессмысленное действие поставлено на службу благому делу. Ни одно усилие в этой цепочке действий не пропадает зря. По-моему, это гениально.

Date: 2008-10-02 07:34 am (UTC)
From: [identity profile] green-fr.livejournal.com
Мне кажется, тут как раз проблем не должно быть, это же то же самое, что читать отсканированную книгу - лично у меня ни разу проблем не возникало :-)
Page generated Feb. 6th, 2026 03:28 pm
Powered by Dreamwidth Studios