InformáticaProgramación

¿Que é un rastreador? ferramenta rastreador "Yandex" e Google

Todos os días en Internet hai unha enorme cantidade de novos materiais para crear un sitio web actualizado as antigas páxinas web, subir fotos e vídeos. Sen oculto dos buscadores non podería ser atopado na World Wide Web, ningún destes documentos. que alternativas como programas robóticos, en determinado momento non existe. ¿Que é un robot de busca, porque precisa del e como operar?

¿Que é un robot de busca

local rastreador (search engine) - é un programa automático que é capaz de visitar os millóns de páxinas web, de xeito rápido a navegación a través de Internet sen intervención do operador. Bots son constantemente espazo varrido da World Wide Web, atopar novas páxinas web e regularmente visita xa indexadas. Outros nomes para crawlers Spiders, crawlers bots.

Por que os robots dos buscadores

As principais funcións que realizan investigación spiders - páxinas indexadas, así como texto, imaxes, audio e arquivos de vídeo que están sobre eles. Bots comprobar referencias, sitios espello (copias) e actualizacións. Os robots tamén realizan control de código HTML para os patróns de conformidade da Organización Mundial, que desenvolve e aplica estándares tecnolóxicos para a World Wide Web.

Que é a indexación, e por iso é necesario

Indexación - é, en realidade, é o proceso de visitar unha páxina web en particular polos buscadores. O programa comproba o texto na páxina web, imaxes, vídeos, enlaces de saída, a continuación, a páxina aparece nos resultados de busca. Nalgúns casos, o sitio non pode ser dixitalizados automaticamente, polo que se pode engadir ao buscador manualmente webmaster. Normalmente, isto ocorre na ausencia de ligazóns externas para unha páxina (moitas veces só recentemente creado).

Como os robots dos buscadores

Cada buscador ten o seu propio bot co robot de busca de Google poden variar significativamente segundo o mecanismo funciona nun programa similar, "Yandex" ou outros sistemas.

En xeral, un principio de funcionamento do robot é a seguinte: o programa "vén" no lugar e as ligazóns externas desde a páxina principal "le" recurso web (incluíndo aqueles que buscan sobrecarga que non ve o usuario). Barco é como navegar entre as páxinas dun sitio web e pasar a outros.

O programa vai escoller que sitio para o índice? Máis veces que non "viaxe" a araña comeza con sitios de novas ou grandes recursos directorios e agregadores con gran peso de referencia. Rastreador varrer continuamente as páxinas, un por un, sobre a velocidade e consistencia da indexación dos seguintes factores:

  • Internos: perelinovka (conexións internas entre as páxinas do mesmo recurso), o tamaño da páxina, o código correcto, amigable e así por diante;
  • Externo: o peso de referencia, que conduce ao lugar.

O primeiro que as enquisas de robot en calquera sitio por robots.txt. indexación aínda máis recursos realízase con base na información recibida, é a partir deste documento. Este ficheiro contén instrucións específicas para as "arañas" que poden aumentar as posibilidades de páxinas visitadas polos buscadores, e, en consecuencia, para acadar unha web hit no inicio do "Yandex" ou Google.

Programa análogos crawlers

Moitas veces o termo "robot de busca" é confundida coa intelixente, usuario ou axentes autónomos, "formigas" ou "vermes". diferenzas significativas inmersos só en comparación cos axentes, doutras definicións refírense a outros tipos similares de robots.

Por exemplo, os axentes poden ser:

  • intelectual: o programa, que son movidos dun lugar a outro, decidir de forma independente como proceder; eles non son moi comúns en Internet;
  • Autónoma: Estes axentes axudan ao usuario na elección dun produto, de investigación, ou encher formularios, os chamados filtros, que son pouco relacionadas con programas de rede ;.
  • user: o programa contribuír á interacción do usuario co World Wide Web, un navegador (por exemplo, Opera, IE, Google Chrome, Firefox), mensaxeiros (Viber, telegrama) ou programas de correo electrónico (MS Outlook e Qualcomm).

"Formigas" e "vermes" son máis parecidos co buscador "arañas". A primeira forma entre unha rede e consistente interactuar como esta colonia de formigas "vermes" é capaz de replicar-se en outros aspectos, o mesmo que o rastreador estándar.

Variedade de robots do search engine

Distinguir entre varios tipos de Rexistro. Dependendo da finalidade do programa, son eles:

  • "Espello" - duplicados a visitar sitios web.
  • Mobile - foco en versións móbiles de páxinas web.
  • Rápido - fixar novas informacións rapidamente por ver as actualizacións.
  • Referencia - índice de referencia, conte os seus números.
  • Rastexador distintos tipos de contidos - programas concretos de texto, audio, vídeo, imaxes.
  • "Spyware" - buscando páxinas que aínda non aparecen no buscador.
  • "Pica-pau" - periodicamente visitar sitios para comprobar a súa relevancia e eficiencia.
  • Nacional - visitar os recursos web localizados nun dos ámbitos de países (por exemplo, .mobi, ou .com.kz .ua).
  • Global - Índice de todos os sitios nacionais.

Robots principais buscadores

Hai tamén algunhas buscador arañas. En teoría, a súa funcionalidade pode variar amplamente, pero na práctica os programas son case idénticos. As principais diferenzas indexación de páxinas web robots dous principais buscadores son os seguintes:

  • O rigor da proba. Crese que o mecanismo de rastreador "Yandex" estimacións máis estritas do lugar para a conformidade cos estándares do World Wide Web.
  • Preservación da integridade do sitio web. Os índices rastreador de Google todo o sitio web (incluíndo contidos multimedia), "Yandex" tamén pode ver o contido de forma selectiva.
  • proba de velocidade novas páxinas. Google engade nova función dos resultados da investigación dentro duns días, no caso de proceso "por Yandex" pode levar dúas semanas ou máis.
  • A frecuencia de re-indexación. Crawler "Yandex" comprobar se hai actualizacións dúas veces por semana, e Google - unha cada 14 días.

Internet, por suposto, non limitando aos dous motores de busca. Outros buscadores teñen os seus robots que seguen os seus propios parámetros de indexación. Ademais, existen varios "arañas" que son deseñados non principais recursos de busca e equipos individuais ou webmasters.

equívocos comúns

Ao contrario da crenza popular, "arañas" non procesar a información. O programa só comprobar e almacena páxinas web e procesamento adicional leva robots completamente diferentes.

Ademais, moitos usuarios consideran que o mecanismo de busca ter un impacto negativo e Internet "nocivo". De feito, algunhas versións do "arañas" pode sobrecargar significativamente o servidor. Hai tamén un factor humano - o webmaster, que creou o programa, pode cometer erros na configuración do robot. Con todo, a maioría dos programas existentes son ben deseñados e xestionada profesional, e os problemas emerxentes pronto eliminado.

Como xestionar a indexación

Buscador bots son programas automatizados, pero o proceso de indexación pode ser parcialmente controlada polo webmaster. Isto axuda moito externo e optimización interna do recurso. Ademais, podes engadir manualmente unha nova web para un buscador: grandes recursos teñen unha forma especial de rexistro de páxinas web.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 gl.delachieve.com. Theme powered by WordPress.