¿Cómo detectan los sitios bots detrás de los proxies o las networkinges de la empresa?

¿Cómo funcionan los grandes sitios (por ejemplo, Wikipedia) con los robots que están detrás de otro IP masker? Por ejemplo, en mi universidad, todo el mundo busca Wikipedia, dándole una carga significativa. Pero, por lo que sé, Wikipedia sólo puede conocer el IP del enrutador universitario, por lo que si configuro un bot "desencadenado" (con sólo un pequeño retraso entre requestes), ¿puede Wikipedia prohibir mi bot sin prohibir toda la organización? puede un sitio realmente prohibir un IP detrás de una networking organizativa?

No, van a prohibir la IP pública y todo el mundo que es NAT'd a ese IP también será prohibido.

Aunque al less en la stack si creemos que vamos a prohibir una universidad o algo así vamos a llegar a su contacto de abuso para que ellos para seguir al infractor hacia abajo y detener el problema.

Un sitio no puede prohibir directamente una IP que está detrás de NAT. Podría actuar sobre IPs pasados ​​a través de proxies HTTP no anonimizadores – cuando tal proxy reenvía una request, normalmente anexa esa dirección a un encabezado X-Forwarded-For, por lo que si el acceso desde su networking privada realmente tiene que ir a través de un tal proxy la IP interna podría estar expuesta; sin embargo la mayoría de los sitios (wikipedia incluido) no confiaría en la información en ese encabezado de todos modos porque es fácil de parodia de implicar IPs inocentes o evadir prohibiciones.

Hay otras técnicas que intentan identificar únicamente a los usuarios independientemente de la dirección IP sin embargo. Puede interrogar a un browser web para get mucha información sobre él y el sistema en el que se está ejecutando, como el agente de usuario, la resolución de pantalla, la list de complementos, etc. – consulte https://github.com/carlo/jquery- browser-fingerprint para un ejemplo de esto en la práctica. Usted podría utilizar esas huellas dactilares para controlar el acceso, aunque dependiendo del layout del sitio puede interactuar con él sin comprometerse con el process de huellas digitales, e incluso si no puede un bot podría proporcionar datos espurios y aleatorios para evitar tener un huella dactilar coherente si usted es consciente de este tipo de protección está en su lugar. Este método de control también corre el riesgo de falsos positivos, especialmente cuando se trata de dispositivos mobilees donde probablemente habrá un gran número de clientes que ejecutan clientes de valores idénticos en hardware de hardware idéntico (la mayoría de la gente en un model específico de iPhone que ejecuta una versión específica de iOS , por ejemplo, probablemente tendría la misma huella digital). Las huellas dactilares como esta normalmente sólo se utilizan para el seguimiento de usuarios en lugar de para hacer cumplir los controles, pero estoy al tanto de los lugares que utilizan la huella dactilar para implementar prohibiciones cuando existe la preocupación de que un bloque de IP sería demasiado amplio y podría ser eficaz contra un robot ingenuo.

Generalmente la dirección IP no es suficiente información para una prohibición correcta. Así que las networkinges avanzadas trabajan en la parte superior de la stack de networking.

Un ataque de denegación de service (DoS) (que está preocupado por crear) normalmente se maneja por la velocidad que limita la configuration inicial de la connection TCP. Esto significa que los usuarios legítimos que están dispuestos a esperar obtendrá a través mientras que aquellos que sólo están tratando de consumir los resources del server se ralentizan hasta el punto de que sea inofensivo. Aquí es donde el DoS evolucionó entonces en un ataque distribuido de DoS (DDoS).

Una vez que tenga una connection con el server, puede hacer tantas requestes como desee, la administración del server web puede configurar cuántas requestes debe manejar.

El server web probablemente puede manejar más capacidad que su pasarela de networking local de todos modos, eso es probablemente el factor limitante en su caso de uso. Apuesto a que sus administradores de la networking de la universidad vendrían golpeando en su puerta antes de que Wikipedia hiciera.

Es importante ser un buen ciudadano de Internet, así que añadiría código de limitación de tarifas a un bot.

También debe señalarse que la Wikipedia ofrece datos de vertederos para que la networking de arrastre del sitio no es realmente necesario.