반응형
* 검색엔진 정보 노출 취약점 : 검색 엔진에 의해 각종 정보(시스템, 개인정보 등)이 검색되어 중요 정보가 제공, 노출되는 취약점
- 웹사이트URL/robots.txt 로 검색 시, 해당 파일이 없는 경우, 검색엔진 접근제어가 미적용된 상태
로봇배제표준 : 검색로봇에 대한 웹사이트의 디렉터리 및 파일에 대한 검색 조건을 명시해놓은 국제 규약
- 접근 제한에 대한 설정을 robots.txt에 기술함(ASCII 또는 UTF-8 텍스트)
검색로봇 : 검색엔진이 웹사이트를 검색, 정보를 가져오는 프로그램으로, 로봇배제표준 설정파일(robots.txt)을 확인, 이를 준수한 컨텐츠 수집을 진행
- 악성 검색엔진의 경우 로봇배제표준을 무시하고 컨텐츠를 수집하는 등의 행위를 할 수 있음
* 로봇배제표준 설정파일(robots.txt) 설정 방법
- User-agent(로봇 이름 명시) 및 Allow 또는 Disallow(해당 URL의 접근 허용 여부 명시)로 구성
* 설정 예시
robots.txt | 허용/차단 내용 |
User-agent: * Disallow: / |
- 모든 검색로봇(*)에 대해 웹사이트 전체(/)에 대한 접근(크롤링) 차단 |
User-agent: Googlebot User-agent: Yeti Disallow: (또는 Allow: /) |
- Googlebot, Yeti 검색 로봇에 대해 웹사이트 전체 접근 허용 - [Disallow: 공백]의 경우 웹사이트 전체 허용 (Allow: / 와 동일) |
User-agent: * Disallow: /cgi-bin/ Disallow: /private/p.html |
- 모든 검색로봇(*에) 대해 /cgi-bin 디렉터리 및 /private/p.html 페이지 접근을 차단 |
User-agent: Googlebot-image Disallow: /*.pdf$ Disallow: /*? |
- Googlebot-image 검색 로봇에 대해 .pdf로 끝나는 URL 및 ?가 포함된 모든 URL 차단 |
* robots.txt 작성 시 유의 사항
파일명 | - 반드시 robots.txt으로 설정 |
파일 위치 | - 반드시 루트 디렉터리(/)에 위치 (아니면 효력 없음) |
파일 내용 | - 대/소문자를 구분함 |
띄어쓰기 주의 | - User-agent, Allow, Disallow 등의 필드와 콜론(:)은 붙어야함 - 콜론(:) 이후 공백이 하나 추가되고 내용이 이어짐 |
줄 바꿈 | - 다중 검색로봇 지정 시, 한 줄을 띄워야함 User-agent: 로봇명1 Disallow: / User-agent: 로봇명2 Disallow: / |
반응형
'Information Security > Hacking' 카테고리의 다른 글
버퍼 오버 플로우 (BOF - Buffer OverFlow) 공격 (0) | 2021.03.02 |
---|---|
웹 서버 보안 대책 (Apache 설정 기준) (0) | 2021.02.18 |
웹 서비스 메소드 설정 취약점 (0) | 2021.02.17 |
디렉터리 리스팅 취약점 (Directory Listing Vulnerability) (0) | 2021.02.17 |
XPath/Xquery Injection Vulnerability (0) | 2021.02.17 |