« Article précédent : Article suivant : »

Recaptcha : les CAPTCHAs viennent au secours des musées

Par 26 août, 2008

Les textes et les livres qui se décomposent sur les étagères poussiéreuses des musées vont bientôt retrouver des yeux pour les lire, et ce bizarrement, grâce au concours d’un outil anti-spam.
Il n’est pas nouveau que les sites participatifs utilisent des caractères d’allure étrange pour distinguer entre les utilisateurs humains et leurs pâles imitateurs algorithmiques. Mais certains vont plus loin et, au lieu d’utiliser uniquement des mots aléatoires, ils intercalent des chaînes numérisées par un logiciel à reconnaissance optique de caractère (Optical Character Recognition).

grey Recaptcha : les CAPTCHAs viennent au secours des musées

Voici ce que lit un logiciel de reconnaissance de caractère

Les mots numérisés qui sont intercalés sont ceux dont la transcription a échoué avec la méthode OCR classique.

Ces caractères d’allure étrange sont appelés CAPTCHAs (Completely Automated Public Turing test to tell Computers and Humans Apart – Test public de Turing complètement automatisé pour distinguer les ordinateurs des humains). Ils sont largement utilisés par les sites Internet pour empêcher la création automatique de compte participant, ou le spam. On estime que des captchas sont parcourus et transcrits 100 millions de fois par jour sur la toile.

Créé par Luis von Ahn du Carnegie Mellon University de Pittsburgh, le projet Recaptcha collecte des échantillons de texte marqués comme illisibles par les logiciels à reconnaissance optique, et les sert aux utilisateurs des sites qui passent par la transcription d’un captcha.

Dans certains documents, où l’encre s’est effacée et dont le papier a jauni, les logiciels de numérisation peuvent marquer jusqu’à 20% des mots comme étant indéchiffrables. Les mots qui ne sont pas reconnus peuvent donc maintenant être transmis aux milliers de sites partenaires du réseau Recaptcha. Chaque mot est alors affiché à côté d’un captcha classique, dont la valeur est connue. Ce dernier permet de déterminer si la réponse fournie est réellement humaine, et de valider le déchiffrement. Les mots obscurs devinés par chacun sont ensuite stockés, analysés, pour enfin permettre d’avoir une connaissance satisfaisante du texte en étude.

grey Recaptcha : les CAPTCHAs viennent au secours des musées

Le principe du système Recaptcha en images

Dans le journal Science, l’équipe Recaptcha déclare que la précision du système est de 99,1%, une précision équivalente à celle des transcripteurs professionnels. Environ 40000 sites utilisent Recaptcha, déchiffrant 4 millions de mots chaque jour. L’année dernière, il y a eu 440 millions de mots déduits avec ce principe, ce qui a permis de réaliser la conversion au format numérique de l’intégralité des archives du New York Times depuis 1908.

Recaptcha est bel exemple d’économie numérique n’impliquant pas d’argent :

Je te donne un système, mais tu me prêtes tes utilisateurs qui travaillent ensuite pour moi.

Source : Archives aided by anti-spam tool (BBC News)

 

Vous devriez nous suivre sur Twitter ici et rejoindre notre groupe sur Facebook ici.

Mots-clefs :, Catégories : high-tech, news
3 commentaires

Alors ça c’est vraiment une utilisation alternative très intelligente.

Great (le 27 août 2008)  - #1

Ha !!!
J’ai vu comment on a écrit « 4 millions de mot »… Comme si ça ne faisait pas assez de mots !

Julien (le 26 octobre 2008)  - #2

C’est corrigé.

Soso (le 28 octobre 2008)  - #3

Désolé, les commentaires sont fermés pour le moment.