블로그 이미지
루미넌스
There are only 10 types of people, those who understand binary and those who do not.

calendar

      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29      

'저장된페이지'에 해당되는 글 1

  1. 2008/03/19 네이버 웹검색의 저장된 페이지 보기(2)
2008/03/19 22:06 miscellaneous
초보주부 뭉코님의 네이버의 웹페이지 미리보기, 양심은 안드로메다로?라는 글을 보고 작은 오해가 있으신 것같아 끄적여 봅니다.

(미리 밝혀둡니다만.. 저는 네이버 직원도 아니고 그랬던 적도 없습니다. 다만 다른곳에서 웹검색을 개발하고 있는 사람으로서 좋은 발견을 하게 되어 쓰는 글입니다.)

아시다시피 웹검색을 서비스하기 위해서는 소위 크롤러라고 불리는 로봇프로그램이 페이지를 긁어다가 저장합니다. 이렇게 저장된 웹페이지를 분석하여 검색결과에 활용하지만, 더러 "데드링크"라 하여, 로봇이 긁어간 이후에 삭제되거나 심하게 변경된 웹문서들이 생겨납니다. 그럴 때에 로봇이 문서를 수집해간 시점의 내용이 검색 이용자에게 더 관심사일 것이므로, 저장된 문서 보여주기 기능이 어느 검색업체나 대부분 있습니다. 다만 제공하는 형태 등이 조금씩 다를 뿐이죠..

구글의 경우, 수년 전만해도 저장된 페이지에서 내가 찾는 내용을 발견하기란 쉽지 않았습니다. 보안, 저작권 등등 여러가지 이유로 로봇이 수집한 HTML을 그대로 보여주는데, 이 HTML내에 포함된 스크립트나 링크, 이미지소스등의 주소가 상대경로인것이 많아 모양을 알아보기 힘들게 나왔습니다. 잘못 만들어졌으나 브라우저에서는 오류가 보이지 않는 HTML이나 실행하지 못하는 자바스크립트로 페이지소스가 완전히 나오지 않는 경우도 많았구요.. 특히 이럴땐, frame으로 보여주게되면 문제가 불거지는 경우가 많습니다. 이런 일들이 자주 발생하자. 구글을 비롯 많은 검색업체에서는 수집시점에 원본HTML을 한번 가공을 하여 저장하게 됩니다. href, src 등의 상대주소가 나올수 있는 경우는 모두 절대주소로 변경하고, 열기만 하고 안닫은 table 태그처럼 잘못 만들어졌으나 브라우저에서는 티가 나지 않는 잘못된 HTML을 수정하고, 심지어 css, js파일도 함께 수집하기도 합니다.

이렇게 수정한 후에는 저장된 HTML보기를 눌러도 페이지 모양이나 이미지가 멀쩡히 잘 나오는데, 다만 새로운 문제가 떠오릅니다. 브라우저에서 HTML을 렌더링해서 보여주는 것이기 때문에 자바스크립트 등의 동적페이지를 만들기 위해 사용된 클라이언트 스크립트가 수행된다는 거죠..
그래서 저장된 페이지만 봐도, 원래 페이지의 방문 카운트가 증가한다던가, 자바스크립트로 심은 애드센스같은 광고가 보인다던가 하는 일이 생기는 겁니다.

근데 뭉코님의 실험은 한가지 신기한 점을 보여주고 있습니다.
정말 저장해둔 페이지를 보여주고 자세한 내용을 보려면 직접 가라 식일지도 몰라서
제가 10000BC 포스트를 수정하고 실시간으로 검색결과를 새로고침 해봤습니다.
내용 제일 앞에 '!!' 를 붙이고 봤더니 바로 적용되어 있네요.
바로 이 부분이죠.. 어떻게 그렇게 된걸까요..
하필 그 타이밍에 Naverbot이 크롤을 다시해갔을수도 있습니다. 가능성이 낮지만..
뭉코님 페이지에 있는 수많은 자바스크립트를 다 해석해보지는 않았지만, 자바스크립트에 의해 리로딩이 되는 것일수도 있겠구요.. 정확한 이유는 모르겠습니다만 여튼, 네이버는 분명 저장한 HTML로 보여준 것이라는 점은 확실합니다.

저도 한번 해봤습니다.
네이버에서 루미넌스 검색결과

네이버에서 루미넌스 검색결과


왼쪽의 창이 네이버 검색결과이고, 오른쪽 창이 두번째 결과로 나온 제 블로그를 클릭해서 들어간 것입니다. 분명 수집시점의 내용을 보여주고 있군요..

저 역시 웹검색을 개발하는 개발자로서 이런 오해가 생길 여지를 최소화해야 하는게 저의 업무중 하나입니다. 자칫 지나쳐 버릴수 있던 문제를 다시한번 상기할 수 있게 문제제기를 해주신 뭉코님께 고맙습니다.

그래도 오해와 노여움은 푸시길 바래요^^;;
----
덧. 네이버 웹검색탭에서는 "저장된 페이지보기"가 아니라 "미리보기"군요.. 다만 용어를 다르게 사용한것 뿐이겠지만요..


Creative Commons License
posted by 루미넌스
prev 1 next