최근 1-2주간 네이버 블로그 검색에 적용된 '네이버 복사문서판독시스템'에 대해 말들이 많다.
다들 자기 블로그 포스트로 테스트를 해보면서 (특히 티스토리 유저들),
원본인 자기글이 검색되지 않고, 네이버 펌글이 검색된다거나
검색이 되기는 하는데 아래로 밀렸다거나 하는 불만을 토로하고 있다.
나 역시 티스토리를 이용하는 블로거로서
불만섞인 이들의 심정을 모르는 것은 아니나,
실제로 이전 회사에서 검색엔진에 적용할 '복사문서판독시스템류'(흔히 '중복필터'라고 말하는)를 테스트하고, 튜닝하고, 고객 응대도 하면서 기획/운영했던 사람으로서
네이버의 블로그 중복필터에 대해서 조금 더 객관적인 평가가 필요하다고 본다.
1. 복사문서판독시스템의 도입 배경 & 효용성 (검색 이용자 관점)
국내 블로그스피어에서 네이버 복사문서판독시스템에 대해 주로 언급되는 내용
대부분이 '블로그 생산자 관점'의 논지를 가지고 있다.
그러나 검색서비스에서 이런 중복 필터를 도입하는 가장 주요한 목적은
'검색이용자'에게 퀄리티있는 검색결과를 제공하기 위함이다.
요즘 같이 펌글이 넘처나는 시대에 검색결과에서
똑같은 반복된 결과를 보거나 클릭함으로써 이용자가 들이는 시간을 줄여주는 것.
가령, 내가 자주 찾는 '미투데이'에 대한 블로그 포스트를 검색하고 싶다고 할 때,
'중복포함옵션'결과와 같이 같은 내용의 글이 여러 개 최상단에 뜨는 결과를 보고 싶은 사람이 있겠는가? (그렇다고 리장님을 뭐라고 하는 것은 아니다, 그 분은 단지 여러 개 블로그를 동시에 운영하고 계신 분)
ex. 네이버 블로그 검색 '미투데이' 결과 (중복제외 옵션이 디폴트)
(키워드 '미투데이' 네이버 블로그 검색 - 중복포함 화면)
그리고 다른 블로그도 마찬가지지만 특히나 네이버 블로그는 펌글이 많기로 유명해서,
네이버 내부 커뮤니티 부서나 검색 부서 모두 이 '펌글'에 대해 많은 고민을 하고 있는 것으로 안다.
기본적으로는 검색 이용자의 편의를 위해서 기획되고 만들어진 시스템이고,
이 시스템을 만드는 사람들도 '상식선'에서 일한다.
일부 블로거들은 네이버 블로그 검색의 이런 시스템 도입 목적을
'내부블로그'를 '원본'으로 우선시 하기 위함이나
애드센스를 달고 있는 외부 블로그를 죽이기 위함(특히 '티스토리 죽이기')으로 내몰면서
본래의 목적이나 의도를 왜곡시키고 있다.
그런 목적이었다면 굳이 NHN Story에까지 시스템 소개글을 올릴 필요가 있었을까?
(그냥 조용히...외부 블로그를 아웃시키면 되지)
그리고 중요한 것은 일반적으로 큰 불만 없이 네이버 블로그 검색을 이용하는 일반 이용자들은
이 시스템의 장점이나 의도, 효용성에 대해서는 굳이 언급하지 않는다는 거 -.-
그리고 해당 검색결과를 은근히 더 많이 이용함으로써 조용히 상승하는 서비스 지표로 말하는 경우가 많다.
2. 복사문서판독시스템 테스트 (블로그 생산자 관점)
아무리 좋은 의도로 도입한 경우라도 시스템이 너무 엉망이면,
제 의도를 이용자에게 전달하지 못하는 법이다.
그래서 당연히 테스트도 함께 진행!
난 티스토리, 다음, 네이버에 블로그가 있는터라
주로 네이버 블로그 검색에서 잘 검색되던 티스토리, 다음의 내 블로그 포스트들을
네이버 블로그에 출처 없이 퍼가고 난 후,
색인 업데이트 시간을 두고 보면서 네이버 블로그 검색에서 어떻게 반응하는지 관찰했다.
오늘 하루 꼬박 걸려서 테스트를 진행했는데,
결론은 '중복필터는 제대로 작동한다'이다.
그리고 난 이런 상식수준의 케이스가 90% 이상일 꺼라 믿는다.
왜냐? 실제로 검색기획하면서 이런 필터링 시스템을 시장에 내놓기 위해서는
백단에서 90% 이상의 정확도가 검증되지 않으면 내놓지 않으니까.
물론 외부 블로그 포스트 중 아예 네이버봇에 의해 '크롤링'이 되지 않거나,
크롤링 해온 포스트 내용이 전문 전체가 아니거나 하는 경우는
실제 복사본 글이 검색결과에 나온 경우가 있기는 했으나,
검색 커버리지 관점에서 크롤링 기획/개발을 하다보면,
'내부 서비스 데이터'에 비해 '외부 크롤링 데이터'를 다루는 것이 얼마나 어려운지 잘 알게 된다. 그래서 이점은 이해할 수 있다.
(특히 블로그 RSS로 크롤링 하는 경우, 본문 전체가 아니라 문서의 '일부'만 긁어갈 수 있게 한 블로거들도 많음 -.-)
1) 티스토리 To 네이버 블로그 OK
ex. 2007 몽산포 여름수련회 - 시루로그 (티스토리)
→ 2007 몽산포 여름수련회 - 시루 네이버 블로그
네이버 블로그 검색결과에서는 네이버 블로그에 글 작성 후,
1-2시간 후에 중복 결과가 나오더니, 한 1시간 정도 지났나? 조금 시간이 지나니
이내 중복 필터에 의해 나중에 퍼간 네이버 블로그 결과가 아래처럼 제외되었다.
(키워드 '2007 몽산포 여름수련회' 네이버 블로그 검색 - 중복제외 화면)
(키워드 '2007 몽산포 여름수련회'네이버 블로그 검색 - 중복포함 화면)
2) Daum 블로그 To 네이버 블로그 OK
ex. 행복해지기 위해 돈 벌기- 시루's 자기만의 방
→ 행복해지기 위해 돈 벌기- 시루 네이버 블로그
(키워드 '행복해지기 위해 돈 벌기' 네이버 블로그 검색 - 중복제외 화면)
(키워드 '행복해지기 위해 돈 벌기' 네이버 블로그 검색 - 중복포함 화면 )
3) 중복결과 나오거나 복사본만 나오는 경우
물론 테스트를 하다보니 중복필터가 제대로 작동하지 않는 경우도 있었다.
내 포스트 말고 어디선가 인용이 된 것을 본 기억이 있던
Channy님의 '2분기 인터넷 기업 얼마나 벌었나?'라는 글 제목으로 검색해보았는데,
해당 글을 퍼간 네이버, 티스토리 글들이 원본글과 같이 검색된다.
아래 결과에서 두 번째 다른 티스토리 블로거의 글은 그나마 Channy님의 글과 태우님의 글을 섞어서 써서 완전히 같지는 않은데, 첫번째 글은 어떻게 된걸까?
아마도 Channy님의 검색결과 '써머리'가 없는 것을 보면 실제 Channy님 문서 크롤링 시
본문이 제대로 크로링 되지 않아서 중복필터에서 본문 매칭 시
티스토리 원본글이 정확한 비교 대상 데이터가 되지 못한 것이다.
그리고 일반적으로 검색랭킹 모델링 시 내용이 비슷해서 정확도가 비슷할 때,
최근에 작성한 글에 더 우선순위를 두는 경우가 많으므로, (가령 같은 장소에 대한 포스트도, 최근에 다녀온 사람 포스트가 더 낫지 않은가!) 퍼온 네이버 블로그 검색결과가 상위로 노출되었다.
ex. 2분기 인터넷 기업 얼마나 벌었나? - Channy 글 제목으로 검색
(키워드 '2분기 인터넷 기업 얼마나 벌었나?' 네이버 블로그 검색 - 중복제외 화면 )
그리고 내 블로그 포스트 중 크롤링이 안된 경우에는
당연히(!) 내 글을 퍼간 다른 블로그글이 검색되었다.
ex. 2007년에는 정말 개인화검색이 수면위로 올라올까? - 시루로그 (티스토리)
→ 2007년에는 정말 개인화검색이 수면위로 올라올까? - 야후 검색엔진 전문 기업 다이퀘스트 블로그
(키워드 2007년에는 정말 개인화검색이 수면위로 올라올까? 네이버 블로그 검색결과 )
3. 이후 개선되었으면 하는 점
지금까지 5년 6개월 동안 검색기획을 해오면서 느낀점은 "100% 완벽한 시스템은 없다."이다.
언제나 부족한 1% ~ 10% 들이 CS를 발생시키고, 실무 담당자의 머리를 아프게 한다.
그러나 그럼에도 불구하고 우리 업계에 있는 사람들은 오류율 0%에 도전해야 하는 법!
중복필터 첫 삽을 뜬 네이버 블로그 검색,
다음과 같은 점을 개선하는데 노력해 주었으면 한다.
1) 크롤링 속도, 커버리지, 퀄리티 개선
외부 블로그들도 내부만큼은 못하겠지만 그래도 지금보다 더 열심히, 많이 긁어주시길.
또 크롤링 시에 원문 판독이 잘 되도록 되도록이면 전문을 긁을 수 있기를(!)
2) 필터링을 위한 힌트 더 똑똑하게 잡아내기
복사문서판독시스템 소개에서 중복 필터링을 하기 위한 기본 단위로
'하나의 문서를 의미 있는 단락단위'를 사용한다고 했는데,
실제로 중복 필터에서 가장 중요한 이 '의미있는 단락 단위'에 대한 고민이 더 필요하리라 본다. 그래서 실제 중복인데 중복으로 판독 안되는 경우가 있을 수 있으니.
3) 조금 더 이용자와 밀착된 커뮤니케이션
불만이 섞인 포스트를 쓰는 블로거들도, 그만큼 네이버 댄스를 경험한,
어찌보면 로열티 있는 이용자들이다.
어느 정도 원인파악이 되었다면, 적극적으로 이용자와 커뮤니케이션 했으면 좋겠다.
네이버 검색 블로그를 통해서도 좋고, 직접 Big Mouth가 되는 블로거들의 지적에 덧글을 달아줘도 좋고.
(물론 그렇게 덧글달다보면 업무 마비가 올 염려가 있어서 적극 추천은 못하겠지만)
p.s.
혹시 이 글을 보고 제가 네이버 블로그 검색 담당자가 아닌가 생각하실 수 있는데,
저는 직접적인 담당자는 아닙니다.
단, 네이버 검색을 포함, 국내 검색서비스들이 이용자들에게 사랑받는 서비스가 되기를 희망하는 사람입니다.


