1. Conduct Search Engine Discovery Reconnaissance for Information Leakage

Summary

검색엔진이 동작하려면 봇들이 정기적으로 웹에 있는 billions of pages에서 데이터를 fetch해야함

이러한 봇들은 다른 페이지에 있는 link를 following하거나, sitemaps를 보고 web content와 기능(functionality)를 탐색함

만약 사이트에서 검색엔진에 fetch되지 않기를 원하는 페이지를 나열해놓은 robots.txt 라 불리는 특수한 파일을 사용한다면, 해당 페이지들은 ignored 됨

이는 Google이 제공한 “검색 엔진 작동 방식”에 대한 더 심층적인 설명임

Tester는 검색엔진을 사이트에 대한 discovery & reconnaissance를 수행하기 위해 사용할 수 있음

direct methods: cache에서 indexes와 관련된 content를 검색하는 것
indirect methods: forums, newsgroups, tendering sites를 검색하여 민감한 설계 및 구성 정보를 학습하는 것

검색 엔진 봇이 crawling을 한 번 끝내면, tags 및 associated attributes를 기반으로 web content를 indexing하기 시작함

이 때, 만약 robots.txt 파일이 업데이트 되지 않고 content를 indexing하지 말라고 지시하는 inline HTML meta tags가 없는 경우 원하지 않는 web content까지 indexing됨

따라서 사이트 owner는 이러한 content를 제거하기 위해 robots.txt, HTML meta tags, authentication, 검색 엔진에서 제공한 도구들을 사용할 수 있음

Application, System, Organization의 어떤 민감한 설계, 설정 정보가 직간접적으로 노출되었는지 식별