Dienstag, 6. Juli 2010

reCAPTCHA - Wie sicher ist es wirklich?

Das reCAPTCHA Projekt, seit Herbst 2009 ein Teil des Google-Konzerns, bietet die Möglichkeit, Formulare über eine einfache API abzusichern. Das Besondere an diesem CAPTCHA-Dienst ist wohl die Herkunft der angezeigten Wörter. Diese stammen aus eingescannten Büchern und Zeitungen, bieten damit also einen vermeintlich guten Schutz vor Spambots, die Schriften in Bildern lesen können.

Es fällt allerdings auf, dass oftmals nur eines der beiden einzugebenden Wörter korrekt sein muss, oder gar die Eingabe von einem der beiden Wörter schon ausreicht. Folgend ein Zitat, dass dieses Verhalten erklären dürfte:

Each new word that cannot be read correctly by OCR is given to a user in conjunction with another word for which the answer is already known. The user is then asked to read both words. If they solve the one for which the answer is known, the system assumes their answer is correct for the new one. The system then gives the new image to a number of other people to determine, with higher confidence, whether the original answer was correct.
Entnommen von der reCAPTCHA Webseite unter Learnmore

Da reCAPTCHA beim auslesen von Büchern und Zeitungen hilft, die mittels OCR nicht so einfach eingelesen werden können, ist eines der beiden gesuchten Wörter also meistens unbekannt und die API nimmt dementsprechend für dieses alles Denkbare als gültigen Wert an.

Ein großer Teil des Wortschatzes von reCAPTCHA kommt derzeit anscheinend aus normalen Tageszeitungen. Es ließe sich also sicherlich eine angepasste Wörterliste dagegen ansetzen lassen. Einziger Schutz ist wohl die bei reCAPTCHA durchgeführte Beobachtung der Falscheingaben und damit verbunden zeitweise vollzogene Sperren. reCAPTCHA hält also zwar viel Spam ab, jedoch nicht unbedingt alles. Es sollte daher durch weitere Schutzmechanismen ergänzt werden.

Keine Kommentare:

Kommentar veröffentlichen