본문 바로가기

Information Security/Hacking

검색엔진 정보 노출 취약점 (robots.txt)

반응형

URL/robots.txt 검색 시, 내용 확인 가능

* 검색엔진 정보 노출 취약점 : 검색 엔진에 의해 각종 정보(시스템, 개인정보 등)이 검색되어 중요 정보가 제공, 노출되는 취약점

- 웹사이트URL/robots.txt 로 검색 시, 해당 파일이 없는 경우, 검색엔진 접근제어가 미적용된 상태

로봇배제표준 : 검색로봇에 대한 웹사이트의 디렉터리 및 파일에 대한 검색 조건을 명시해놓은 국제 규약
- 접근 제한에 대한 설정을 robots.txt에 기술함(ASCII 또는 UTF-8 텍스트)

검색로봇 : 검색엔진이 웹사이트를 검색, 정보를 가져오는 프로그램으로, 로봇배제표준 설정파일(robots.txt)을 확인, 이를 준수한 컨텐츠 수집을 진행
- 악성 검색엔진의 경우 로봇배제표준을 무시하고 컨텐츠를 수집하는 등의 행위를 할 수 있음

 

 

 

* 로봇배제표준 설정파일(robots.txt) 설정 방법

- User-agent(로봇 이름 명시)Allow 또는 Disallow(해당 URL의 접근 허용 여부 명시)로 구성

* 설정 예시

robots.txt 허용/차단 내용
User-agent: *
Disallow: /
- 모든 검색로봇(*)에 대해 웹사이트 전체(/)에 대한 접근(크롤링) 차단
User-agent: Googlebot
User-agent: Yeti
Disallow:
(또는 Allow: /)
- Googlebot, Yeti 검색 로봇에 대해 웹사이트 전체 접근 허용

- [Disallow: 공백]의 경우 웹사이트 전체 허용 (Allow: / 와 동일)
User-agent: *
Disallow: /cgi-bin/
Disallow: /private/p.html
- 모든 검색로봇(*에) 대해 /cgi-bin 디렉터리 및 /private/p.html 페이지 접근을 차단
User-agent: Googlebot-image
Disallow: /*.pdf$
Disallow: /*?
- Googlebot-image 검색 로봇에 대해 .pdf로 끝나는 URL 및 ?가 포함된 모든 URL 차단

* robots.txt 작성 시 유의 사항

파일명 - 반드시 robots.txt으로 설정
파일 위치 - 반드시 루트 디렉터리(/)에 위치 (아니면 효력 없음)
파일 내용 - 대/소문자를 구분함
띄어쓰기 주의 - User-agent, Allow, Disallow 등의 필드와 콜론(:)은 붙어야함
- 콜론(:) 이후 공백이 하나 추가되고 내용이 이어짐
줄 바꿈 - 다중 검색로봇 지정 시, 한 줄을 띄워야함
User-agent: 로봇명1
Disallow: /

User-agent: 로봇명2
Disallow: /

 

반응형