Prospěšná Captcha

Kamarád mi poslal odkaz na zajímavý článek. Jistě všichni znáte ochranu zneužití veřejně dostupných formulářů pomocí CAPTCHA. Koneckonců je většina z nás má na svých blozích po tom, co nám začaly chodit spamové komentáře k článkům. Pánové z Carnegie Mellon University však našli způsob, jak tento otravný fenomén převést na něco, co je užitečné.

Na světě existuje ohromné množství tištěné literatury, které se snaží archiváři digitalizovat, aby se zachovaly pro budoucí generace. Při digitalizaci se používá OCR pro rozeznávání textového obsahu. OCR však není v řadě případů úspěšné - prostě nedokáže rozeznat napsané slovo (podle statistiky 1 z 10). Výsledkem je tedy text, který je více či méně znehodnocený a je nutný lidský zásah, aby byl původní text zkompletován.

Právě k rozeznávání špatně čitelných slov, se kterými si nedokáže AI poradit se dají využít Captchi. Princip je geniálně jednoduchý - slova, která se nepodařilo OCR identifikovat jsou jako obrázky distribuovány na web servery, které je použijí jako Captchi. V každé Captcha budou vždy dvě slova - jedno, které se OCR nepodařilo identifikovat a druhé, které se podařilo. Na slovo, které se podařilo OCR identifikovat jsou aplikovány filtry pro zhoršení rozeznání slova (aby bylo ostatním AI stíženo čtení tohoto slova). Uživatelský vstup je potom porovnáván pouze s tím správně identifikovaným slovem - znění druhého slova je po rozluštění člověkem naopak posláno zpět na CMU k doplnění do původního textu. Aby bylo možné považovat rozluštění za důvěryhodné - minimálně dva lidé se musí shodnout na stejném znění tohoto slova. Pokud se neshodnou, je automaticky podstrčeno dalším lidem, dokud není dostatečná shoda na jeho znění.

Tahle myšlenka ve mě utvrzuje pocit, že geniální věci jsou často tak prosté. Zajímalo by mne, jestli si články na BBC čtou i naši archiváři ...

Zdroj: BBC NEWS
Carnegie Mellon University zpráva CMU

Aktualizace k 13.1.2008: Na blogu jsem nasadil plugin reCaptcha, který je reálnou ukázkou tohoto principu. Více o tom, jak plugin funguje se dočtete na stránkách autorů.