Robots aussperren, Websitescan unterbinden, PHP Checkbox-Captcha?

P

Programmer78

Doppel-As
Hallo zusammen,

ich hätte gerne einen bestimmten Bereich der Webseite, den Robots oder scriptbasierte Scans von irgendwelchen Suchmaschinen oder sonstigen nicht einsehen können aber an den jeder beliebige Mensch gelangen kann. Bestimmte Textabschnitte sollen nicht auf ewig in Suchmaschinen sichtbar bleiben.

Dazu habe ich die Erfahrung gemacht, dass nur verfügbaren Links auf der Hauptseite oder deren Quelltext gefolgt wird, ja wie soll's auch anders gehen...

Es soll kein abgesperrter Bereich im Sinne von htaccess sein, sondern eher im Sinne von Captcha. Zusätzlich darf auch im Quellcode der Hauptseite oder der Abfrageseite nicht die "nur für Menschen sichtbare Seite" ersichtlich oder verlinkt sein.

Vielleicht wäre ein redirect die Lösung aber bestimmt habt ihr noch andere Ideen!

Also kurz: Kein Roboter darf jemals auf die Unterseite meinewebseite.de/beispiel.html. Reicht ein Captcha da aus? Andere Ideen?

Einträgen in der robots.txt oder Angaben wie nofollow werden ja oft ignoriert, sind daher unwirksam.

Für ein paar Denkansätze wäre ich dankbar. Darstellung als Bild sollte nicht die Lösung sein.

Gruß

P
 
Meine Idee wäre, dass du den sensiblen Inhalt selbst in einer Datenbank speicherst und nur dann per PHP oder ähnlichem in die Seite schreibst, wenn ein Captcha gelöst wurde.
Ansonsten ist es schwierig, auch Scripte auszusperren.

Viele Grüße,
Pik-9
 
ja so müsste man es machen, vielleicht gibt es noch andere Möglichkeiten.

Habe gerade auf http://www.bitv-lotse.de/BL/DE/3_Hi...t/3_5_captchas_und_barrierefreiheit_node.html einen Beitrag zu Captcha's und Barrierefreiheit gelesen. Dort wurde viel erklärt aber auch, dass Captcha's von guten Programmen gehackt werden können. Zusätzliche ältere Captcha Ideen mit Bildern und Symbolen oder Redewendungen wurden auch vorgestellt, sind aber wohl alle berechenbar.

Was mir noch eingefallen ist, man könnte zwei (oder mehr) Würfel mit Optionsfeldern darstellen. Die Optionsfelder werden nicht immer gleich bezeichnet sondern immer durcheinander, Zufallsmodus, so dass ein Computer es nicht so leicht hat.

Code:
°   °     °   °
° ° °     ° ° °
°   °     °   °

Man soll dann die Auswahl treffen, dass der linke Würfel eine Zahl geworfen hat und der rechte auch eine. Zwar auch nicht Barrierefrei aber vielleicht sicherer gegen ein Bot mit Texterkennung. Was haltet ihr davon?

[EDIT]: Eine Weile später ..... :
Hier mal ein HTML-Code mit Checkboxen, Optionen gehen ja nicht, da kann ja nur ein Feld markiert werden... :rolleyes:

Code:
<html><p>Bitte w&auml;hlen Sie aus: <br><br>W&uuml;rfel 1 hat eine 5 gew&uuml;rfelt, W&uuml;rfel 2 hat eine 1 gew&uuml;rfelt<br><br><br>
Wuerfel 1<table><tr><td><input type="checkbox" name="typ" value="1"><br></td><td></td><td><input type="checkbox" name="typ" value="2"></td></tr>
<tr><td><input type="checkbox" name="typ" value="3"><br></td><td><input type="checkbox" name="typ" value="4"></td><td><input type="checkbox" name="typ" value="5"></td></tr>
<tr><td><input type="checkbox" name="typ" value="6"><br></td><td></td><td><input type="checkbox" name="typ" value="7"></td></tr></table><br><br>
Wuerfel 2<table>
<tr><td><input type="checkbox" name="typ" value="8"><br></td><td></td><td><input type="checkbox" name="typ" value="9"></td></tr>
<tr><td><input type="checkbox" name="typ" value="10"><br></td><td><input type="checkbox" name="typ" value="11"></td><td><input type="checkbox" name="typ" value="12"></td></tr>
<tr><td><input type="checkbox" name="typ" value="13"><br></td><td></td><td><input type="checkbox" name="typ" value="14"></td></tr></table>
<br>
</p></html>
 
Zuletzt bearbeitet:
Ach, die Würfelzahl, die an den Checkboxen eingestellt werden soll, könnte man ja auch als Bild übergeben. Wüsste nicht wie man das mit dem Computer herausscannen sollte, ist das möglich automatisiert zu scannen? Sollte schwer werden oder? Die geposteten Bilder könnte man Binär leicht verändern, so dass die Prüfsumme auch bei gleichen Bildern immer unterschiedlich ist.

Hier mal ein Beispiel für die ZWEI

http://i.imgur.com/5iEQFrf.jpg
[ FreeCad0.16 ]
 
Theoretisch ist es möglich über Bilderkennung, allerdings wäre das sehr aufwendig für einen normalen Crawler. Von daher sollte das imho vollkommen ausreichend sein, um den Inhalt der Seite von den Suchmaschinen fern zu halten.
Wenn jemand wirklich motiviert ist, den Inhalt deiner Seite per Script zu archivieren, dann findet er immer einen Weg, aber da muss man sich dann fragen, ob der Aufwand dafür noch im Verhältnis steht.
 
Habe gerade so ein Spielwürfel-Captcha gefunden und wollte es hier mal zeigen. Ich glaube eine Bilderkennung kann alles lösen, die müsste aber auf das jeweilige Bild-Captcha nur aufwendig eingestellt werden um richtige Ergebnisse zu liefern, möglich ist bestimmt einiges.


http://dropdownmenu.com/data/upload/2013/08/30/5220b68cac12e.jpg
Bild von "dropdownmenu.com"
Artikel: "18 Brand New And Free Web Form Examples"


Was eine Bilderkennung leisten kann, zeigt dieses Video bei YT, wo verschiedene Schrauben mit großer Trefferrate erkannt werden:
https://i.ytimg.com/vi/e2frN_HlxGs/hqdefault.jpg
YT: youtube.com/watch?v=e2frN_HlxGs

Es ist also schwer möglich etwas darzustellen, was der Mensch erkennen kann aber der Computer nicht. Man müsste also irgendwie die Eingabe der computergenerierten Lösung, also des Robots erschweren. Wenn das möglich ist, genügen auch wieder einfache Chaptcha's.


G**gle hat ja groß IHR Captcha-System mit der einzelnen Checkbox beworben um Menschen von Robotern zu unterscheiden. Also bei manchen Leuten soll es genügen, wenn sie nur die Checkbox abhaken.
Bei mir hat das allerdings noch nie funktioniert. Ich musste bisher immer danach noch Straßen oder Verkehrszeichen erkennen und anhaken. Ich hatte noch nie das Glück, dass ich nur mit den einen Haken als Mensch erkannt wurde. Vielleicht funktioniert das nur mit Windows :D
 
Zurück
Oben