Как да намерите скрити страници в уебсайтове
През 2016 г. Google обработва повече от 3200 милиарда заявки за търсене, но резултатите, предоставени от търсещата машина, представляват само малка част от наличното онлайн съдържание. Голяма част от информацията, която е достъпна онлайн, не е достъпна чрез търсачките, затова е необходимо да използвате специални инструменти или изследователски уебсайтове, за да намерите тези скрити страници. Известна като дълбока мрежа, тази скрита информация представлява до 5000 пъти повече, отколкото е налице, използвайки типични техники за търсене.
Видове скрито съдържание
Скритите страници на сайтове са разделени на категории, които описват защо те остават невидими за търсачките.
Някои представляват динамично съдържание, което се представя само когато посетител издава конкретна заявка на уебсайт, който използва код, базиран на база данни, за да представи конкретни резултати. Например тези страници могат да включват резултати от покупки въз основа на конкретни комбинации от продуктови критерии. Търсачките не са предназначени за проследяване и съхраняване на информация в тези бази данни. За да намерите тези страници, трябва да отидете на уеб сайта и да потърсите конкретната информация, която търсите, или да използвате услуга за търсене, ориентирана към базата данни, като Bright Planet .
Някои страници нямат връзки, които да ги свързват с източници за търсене. В тази категория могат да бъдат включени временни ресурси, като например няколко версии на уебсайтове за недостатъчно развитие, както и слабо проектирани уеб сайтове. Например, ако някой създаде уеб страница и я качи на сървъра на уебсайта, но не добави връзка към него на текущите страници на уебсайта, никой няма да знае, че е там, включително и в търсачките.
Все още повече страници изискват идентификационни данни за влизане или достъп, като например сайтове за абонаменти. Уеб дизайнерите определят страниците и секциите на сайтовете, така че да са извън границите на търсачките, като ефективно премахват местоположението си по конвенционални начини. За достъп до тези страници обикновено трябва да създадете профил, преди да получите разрешение за достъп до тях.
Използване на файлове на robots.txt
Търсачките обхождат страниците на уебсайт и индексират съдържанието си, така че да могат да се показват в отговор на запитвания. Когато собственикът на уебсайт желае да изключи някои части от домейна си от тези процедури за индексиране, той добавя адресите на тези директории или страници към специален текстов файл, наречен robots.txt, който се съхранява в корена на неговия сайт. Тъй като повечето уеб сайтове съдържат файл на робот, независимо дали те добавят изключения или не, можете да използвате предвидимото име на документа, за да покажете съдържанието му.
Ако въведете "[име на домейн] /robots.txt" без котировките в адресната лента на браузъра ви, замествайки "[име на домейн]" за адреса на сайта, съдържанието на файла на робота често се показва в в прозореца на браузъра след натискане на клавиша "Enter". Записите, предхождани от "disallow" или "nofollow" представляват части от сайта, които остават недостъпни чрез търсачката.
Направи си сам: хакерски уеб сайтове
В допълнение към файловете robot.txt често можете да намерите скрито съдържание, като напишете уеб адреси за конкретни страници и папки във вашия уеб браузър. Ако например разгледахте уеб сайт на един художник и забелязахте, че всяка страница използва същата конвенция за имена - като gallery1.html, gallery2.html, gallery4.html - тогава можете да намерите скрита галерия, като напишете страницата "gallery3.html "във вашия уеб браузър.
По същия начин, ако видите, че уебсайтът използва папки за организиране на страници - например example.com/content/page1.html, като "/ content" е неговата папка - тогава може да можете да видите самата папка, като въведете в уеб сайта и папка, без страница, като например "example.com/content/" във вашия уеб браузър. Ако достъпът до папката не е деактивиран, може да можете да преглеждате страниците, които съдържа, както и чрез страниците на която и да е подпапка, за да намерите скрито съдържание.
Тази статия е направена с помощта на itstillworks.com