Back to Question Center
0

Semalt tarjoaa vihjeitä siitä, miten käsitellä robotit, robotit ja robotit

1 answers:

Sen lisäksi, että luodaan hakukoneen ystävällisiä URL-osoitteita, .htaccess-tiedosto estää WWW-ylläpitäjät estämään tietyt robotit käyttämästä verkkosivustoaan. Yksi tapa estää nämä robotit on robots.txt-tiedoston kautta. Kuitenkin Ross Barber, Semalt Customer Success Manager toteaa, että hän on nähnyt joitain indeksoijia, jotka eivät ole noudattaneet tätä pyyntöä. Yksi parhaista tavoista on käyttää .htaccess-tiedostoa estääksesi niitä indeksoimasta sisältöäsi.

Mitkä ovat nämä botit

Ne ovat sellaisten ohjelmistojen ohjelmistoja, joita hakukoneet käyttävät uusien sisältöjen poistamiseen Internetistä indeksointitarkoituksiin.

He suorittavat seuraavat tehtävät:

  • Käy verkkosivuilla, joihin olet linkittänyt
  • Tarkista HTML-koodisi virheistä
  • He tallentavat verkkosivustot, joihin olet linkittänyt, ja näet, mitä verkkosivuja linkittää sisältösi
  • He indeksoivat sisältösi

Jotkut botit ovat kuitenkin haitallisia ja etsivät sivustosi sähköpostiosoitteita ja lomakkeita, joita yleensä käytetään lähettämään sinulle ei-toivottuja viestejä tai roskapostia. Toiset myös etsivät suojausreikiä koodissasi.

Mitä web-indeksointilaitteiden estämiseksi tarvitaan

Ennen kuin käytät .htaccess-tiedostoa, sinun on tarkistettava seuraavat asiat:

1. Sivustosi on oltava käynnissä Apache-palvelimessa. Nykyään jopa ne web-hosting-yritykset, jotka ovat puoliksi tyytyväisiä työhönsä, antavat sinulle pääsyn vaadittuun tiedostoon.

2. Sinun on päästävä sinuun verkkosivustosi raakapalvelulokista, jotta voit löytää, mitä botit ovat vierailleet verkkosivuillasi.

Huomaa, että et voi estää kaikkia haitallisia robotteja, ellet estä niitä kaikkia, myös sellaisiksi, jotka mielestäsi ovat hyödyllisiä. Uusia robotteja syntyy joka päivä, ja vanhempia muutetaan. Tehokkain tapa on suojata koodisi ja vaikeuttaa robottien roskapostia.

Botojen tunnistaminen

Botit voidaan joko tunnistaa IP-osoitteella tai niiden "User Agent String" avulla, jonka ne lähettävät HTTP-otsakkeissa. Google käyttää esimerkiksi Googlebotia.

Saatat tarvita tätä luetteloa 302 robotteilla, jos sinulla on jo sellainen bot, jonka haluat säilyttää pois .htaccess

Toinen tapa on ladata kaikki lokitiedostot palvelimelta ja avata ne tekstieditorilla. Heidän sijainninsa palvelimessa saattaa muuttua palvelimen asetusten mukaan. apua web-isännältäsi.

Jos tiedät, miltä sivulta käyntiin tai vierailun ajankohtaan, on helpompaa tulla ei-toivotulla botilla. Voit etsiä lokitiedostoa näillä parametreilla.

Kerran olet huomannut, mitä robotteja sinun on estettävä. voit sisällyttää ne sitten .htaccess-tiedostoon. Huomaa, että botin estäminen ei riitä pysäyttämään sitä. Se voi palata uudella IP: llä tai nimellä.

Kuinka estää ne

Lataa .htaccess-tiedoston kopio. Tee varmuuskopioita tarvittaessa.

Menetelmä 1: estäminen IP: llä

Tämä koodinpätkä estää botin IP-osoitteen 197.0.0.1

Tilaa kieltää, anna

Kielletään vuodesta 197.0.0.1

Ensimmäinen rivi tarkoittaa, että palvelin estää kaikki pyynnöt, jotka vastaavat määritettyjä malleja ja sallivat kaikki muut.

Toinen rivi kertoo palvelimelle 403: kielletyn sivun

Menetelmä 2: Käyttäjien estäminen

Helpoin tapa on käyttää Apache'n uudelleenkirjoitustekniikkaa

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Ensimmäinen rivi varmistaa, että uudelleenkirjoitusmoduuli on käytössä. Rivi 2 on edellytys, jota sääntö koskee. Linjan 4 "F" kertoo palvelimelle, että palaa 403: Kielletty kun "L" tarkoittaa, että tämä on viimeinen sääntö.

Tämän jälkeen lataat .htaccess-tiedoston palvelimeen ja korvaa olemassa olevan .htaccess-tiedoston. Ajan, sinun on päivitettävä botin IP. Jos teet virheen, lähetä varmuuskopio, jonka olet tehnyt.

November 29, 2017
Semalt tarjoaa vihjeitä siitä, miten käsitellä robotit, robotit ja robotit
Reply