Вы работаете на New York Times , сами того не зная

We use cookies. Read the Privacy and Cookie Policy

Вы работаете на New York Times, сами того не зная

Вы сталкивались с этим десятки, если не сотни раз: прежде чем получить доступ на какой-то сайт, нужно ввести в специальное поле буквы, написанные искаженным шрифтом.

Доктор Луис фон Ан из Университета Карнеги – Меллон подсчитал, что люди расшифровывают подобные надписи более 200 миллионов раз за день. Кому знать, как не ему? Это он разработал систему под названием CAPTCHA. Она защищает интернет-сайты от программ-роботов, предлагая посетителю простой тест, который может пройти только человек. Само слово CAPTCHA – это сокращение английского словосочетания «Completely Automated Public Turing Test to Tell Computers and Humans Apart» («Полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей»). Посетитель сайта должен правильно распознать кодовое слово и ввести его в специальное поле. Только тогда он сможет войти на сайт. Компьютер этот тест не пройдет.

CAPTCHA тоже имеет свои изъяны. Программа генерирует слова случайным образом и иногда результат сбивает пользователя с толку. Одной женщине, пытавшейся завести электронный ящик в почтовой службе Yahoo, предложили ввести кодовое слово WAIT («ждите»). Просидев 20 минут перед экраном, на котором не происходило никаких изменений, она наконец позвонила в службу поддержки сайта. Бывает и хуже. Другому пользователю предложили кодовое слово RESTART («перезагрузить»).

Несмотря на эти мелкие неудобства, CAPTCHA оказалась безгранично полезной владельцам и администраторам интернет-сайтов, которые хотят защитить свои домены от засилья генерируемого программами-роботами спама.

Рисунок 5.1

Взять, к примеру, сайт Ticketmaster.com. Он продает тысячи билетов на спортивные мероприятия, концерты, спектакли и выставки. Спекулянты с удовольствием заполучили бы билеты на лучшие места и перепродали бы их намного дороже с большой выгодой. Будь у них такая возможность, они атаковали бы сайт Ticketmaster.com и скупили бы тысячи билетов на популярные мероприятия, как только те появились бы в продаже. Сайт пытался защититься от спекулянтов, ограничив количество билетов на одного покупателя, но охотники за наживой нашли способ обойти правила, написав компьютерные программы, которые выдают себя за реальных людей, заходят на сайт и покупают билеты. Автоматически совершая тысячи покупок в минуту, спекулянты наживались за счет сайта и обычных покупателей, которые в итоге получали худшие места или переплачивали за хорошие.

CAPTCHA все изменила. Программа не может распознать искаженный шрифт – это под силу только человеку – и не получает доступ на сайт Ticketmaster. Да, на то, чтобы расшифровать кодовое слово и ввести его в указанное поле, требуется какое-то время – около 10 секунд – и некоторые умственные усилия. Но владельцы сотен тысяч сайтов бесконечно благодарны фон Ану за его изобретение. Мало кто из пользователей интернета жалуется на эту 10-секундную заминку, учитывая получаемые выгоды в виде повышенной безопасности и справедливых цен на товары высокого спроса вроде билетов на концерт.

За пределами отрасли мало кто знает, что у фон Ана есть причины испытывать ответную благодарность к пользователям интернета. Дело в том, что он использует сотни миллионов ежедневных ответов на тест CAPTCHA для осуществления одной цели – наверное, еще более важной для общества, чем отваживание спекулянтов театральными билетами, – сканирования и оцифровки каждой бумажной книги на планете.

Большинство обывателей об этом не знают, но их ответы на тест CAPTCHA выполняют две функции. Они не только доказывают сайту, что вы реальный человек, а не компьютерная программа, но и расшифровывают трудные для прочтения слова из старых печатных текстов. Вводя слово в указанное поле, вы преобразуете печатный текст в цифровой. Это отличный пример объединения задач – поручения нового задания имеющемуся ресурсу.

Оцифровка старых печатных изданий – тяжкий труд даже при наличии современных сканеров и мощных компьютеров. Точность сканирования до сих пор оставляет желать лучшего, особенно с учетом широкого многообразия шрифтов и плохого качества печати многих старых изданий. Фон Ан написал программу под названием reCAPTCHA, которая заносит неразборчивые для компьютерных сканеров слова в программу САРТСНА, а та, в свою очередь, предлагает их для расшифровки посетителям интернет-сайтов. Крупные сайты вроде Yahoo и Facebook используют reCAPTCHA, и фон Ан бесплатно раздает ее всем желающим.

Удачна ли была идея? Результаты, прямо скажем, ошеломляют. Самые обычные пользователи интернета помогают расшифровывать примерно 150 тысяч книг в год (в эквиваленте). В другой ситуации для выполнения такого объема работы потребовалось бы 37 500 работников, занятых полный день. Помимо прочих достижений, reCAPTCHA помогла оцифровать весь печатный архив газеты New York Times с 1851 года.

Вот она, техника объединения задач в своем лучшем проявлении – как и новая методика доктора Полтера для диагностики хронической тазовой боли.

Эта идея посетила фон Ана после того, как он подсчитал, какой объем человеческого труда идет на выполнение тестов САРТСНА. «Я быстро прикинул, что люди расшифровывают примерно по 200 миллионов кодовых слов в день, – говорит фон Ан. – Если на одно слово уходит 10 секунд, то получается 50 тысяч рабочих часов в день! Мне стало интересно, с какой благой целью можно было бы использовать этот труд».

Доктор фон Ан не остановился на reCAPTCHA. По его словам, он хотел бы извлечь еще больше социальной, экономической и интеллектуальной пользы из каждого мгновения жизни любого жителя планеты.

«Хочется, чтобы все человечество тратило силы более эффективно, чтобы каждый эпизод взаимодействия человека с компьютером не пропадал зря», – говорит фон Ан. По мере роста числа пользователей Всемирной сети у общества появляется все больше возможностей полезного применения этого, как говорит фон Ан, «технологически развитого, огромного по масштабам процессорного блока».

Потенциал, на его взгляд, безграничен. Например, программа @Duolingo, новинка среди его изобретений, – это попытка перевести всю содержащуюся в интернете информацию на основные мировые языки. Сегодня тексты интернет-сайтов пишутся на сотнях языков, но более половины – на английском. Это делает Сеть недоступной для большинства населения мира, особенно в стремительно развивающихся регионах, таких как Китай, Индия и Россия.

И снова фон Ан построил свое решение на объединении задач. Миллиард человек во всем мире учит какой-то иностранный язык. Миллионы из них пользуются компьютером. При использовании @Duolingo люди учат иностранный язык и одновременно переводят текст подобно тому, как это делают CAPTCHA / reCAPTCHA, т. е. совмещают задачи. По подсчетам фон Ана, если бы один миллион человек воспользовался @Duolingo для изучения испанского языка, то всю «Википедию» можно было бы перевести на этот язык всего за 80 часов.

Фон Ан постоянно размышляет о том, как еще вовлечь все человечество в большое общее дело. «Нам пока не хватает размаха мыслей, – говорит он. – Но если бы каждый человек делал свою небольшую часть задачи, то вместе мы смогли бы сотворить для человечества нечто невообразимо огромное».

Данный текст является ознакомительным фрагментом.