연세대 문헌정보학과 대학원 석사과정 사람들과
지난 방학 동안 조를 나누어 문헌정보학 세부 분야의 최근 연구 트렌드를 리뷰하였다.

리뷰 대상은 주요 학술지와 학술대회 발표 논문들.
정보검색(검색엔진) 분야의 경우
IPM, JASIST, 정보관리학회와 같은 주요 학술지에 검색 관련해서 발표된 논문들과
WWW2008, SIGIR 2008과 같은 주요 컨퍼런스에서 검색 관련해서 발표된 논문들을 합쳐
총 103개 논문의 초록을 위주로 최근 연구 동향을 정리해보았다.

< 주요 연구 Trend >

* 질의 관련 Trend
  질의 확장(9), 질의 분석(5), 질의 수정(3)
  (주요 주제)
   - 긴 질의
   - 자연 언어 질의
  (새로 떠오른 주요 기법)
   - Language Modeling
   - XML, HTML
   - Social Network
   - Eye-tracking

* 랭킹 관련 Trend
 - 학습에 의한 랭킹 (9)
 - 새로운 문서/용어 가중치 기반 랭킹 (4)
 - 매출과 정확도 최적화 랭킹 (2)

* 적합성 평가 Trend
 - 이용자 연구를 통한 적합성 평가(4)
 - 새로운 적합성 피드백 기법 개발(3)
 - 적합성 평가와 검색 성능의 관계(5)

* 멀티미디어 검색 Trend
 - 다양한 멀티미디어 개체들의 검색에 대한 필요성과 요구의 증가
 - 각종 검색 엔진들의 멀티미디어 검색은 여전히 제한적이며 한계점을 가짐
    대부분 텍스트 기반의 멀티미디어 검색
    텍스트 검색보다 좋지 않은 성능

발표자료




리뷰 논문 리스트



Posted by 시루

오늘 아홉번째로 들은 발표라 듣는 것만도 제법 지칠만했는데,
전 대표님의 감칠맛나는, 생각을 많이 하게 만드는 프레젠테이션 능력에
재미있게 들은 세션이였다.

'맛있는' 구글이 검색의 미래라면,
결국 '소셜 검색'이 검색의 미래라는 것일까
     
프로슈머들의 적극성을 잘 활용하는 검색이
향후 검색의 미래에서 승할 확률이 높다는 이야기.

피플투의 검색 SNS도 그렇고,
딜리셔스 구글 이야기도 그렇고,
결국 미래의 검색의 키워드는 '사람'인가.

어쩌면 실체가 잘 잡히지 않았다는 지식iN도
검색의 '사람화'의 초기 버젼이었지 않나 싶다.

구글은 주로 시스템적으로 '사람의 기록'들을 가공해서 잘 장사를 했고,
앞으로는 조금 더 노골적으로 '사람의 활동'들이 검색에 녹아나야 하는 것일까.

난 여전히 '참여하지 않은 듯 참여하게 하는 것'이 더 강한 힘을 가지고 있다고 생각하기는 하지만, 어떤 방식으로든지 '사람'을 고민해야 함은 분명하다.

--- 주요 내용 요약 ---

왜? 라는 질문
- 집단지능의 환상이 퍼지는 이유
- Social, Human-powered가 실험되는 이유
- 구글이 블로그 검색을 소화하지 못하는 이유
- 지식iN의 실체가 잡히지 않는 이유

* 어느 북마크의 꿈
Jumpoo! -> surfer.co.kr -> 실패 왜?
- 사용자를 가르치려 들다
- 융합의 방법을 모르다
  ex. 카테고리 기반? URL 그룹 기반?

구글, 강적 등장 - 링크 분석? 성공 왜?
- 참여하지 않은 듯 참여하게 하다.
- Link로 융합시키다

북마크의 귀환
왜 귀환했나, 왜 성공한 것처럼 보이는가?
- 공유를 즐기다
- Tag로 융합시키다

But,
del.icio.us is not a delicious search engine
기본 수집 경험이 전제로 깔아야 하기 때문에 독자적으로 움직이기 어려움
'보이지 않는 손'이라는 시스템을 크게 적용하지 않음

딜리셔스와 검색과의 Gap

* 안다는 것(知)에 대하여

'지능'이 높다
'지식'을 쌓다
'지혜'롭다
'지성'을 갖추다

검색엔진의 역사와 '지능'
- 전문가 지능 -> 시스템 지능 -> 인공 지능 (가는 듯 했으나, 인공지능 X)
- (갑자기) 전문가 지능 -> 시스템 지능 -> 집단 지능(갑자기 PageRank 등이 집단 지능이래 ) -> ?

집단 지능 vs. 집단 지능
- 구글     : 생산자 집단의 지능 연결
- 딜리셔스 : 소비자 집단의 지능 연결

누가 그들을 바꿨나?
- 검색하며 발전한다 : Berry Picking
- 인터넷하고 휴대폰에 의존적.
  중심(검색) : 뉴스/블로그 (비교하며) 보기 -> 다른 사람의 이야기나 뉴스 평가보기 -> 내 이야기 쓰기 -> 내 이야기 반응보기
  기자들의 하루 라이프스타일과 유사
  모든 사람의 기자화
- 생산자인가? 소비자인가?
  신문기자 - 열혈독자
  블로거 - 블로그 서퍼
  추천 사이트 생산자 - 검색 중독자
- 자료 -> 정보 -> 지식 -> '검색' -> 자료 사이클

북마크 : 생산과 소비가 동시에 일어나는 자리

* 구글의 미래

구글은 검색의 오늘이지 미래가 아니다.
구글의 딜레마 : 구글을 많이 사용할 수록 구글 결과에 만족하지 않다.
가끔, 구글을 뜯어고치고 싶다.
그러나 구글, SEO나 하라고?
Nole, Wikia Search, Mahalo

구글이 살아남는 방법
Don't be evil! (악하지 않은 구글) vs. Delicious Google (맛있는 구글)

Posted by 시루

큐로보라는 나름 상용화된 시맨틱검색을 만든 업체라 기대했는데,
발표 초반에는 너무 일반적인 내용을 이야기해서 약간 재미없었다. (검색엔진의 역사 -_-)

결국 핵심은 웹으로부터 의미기반 DB생성을 어떻게 하는 것일 듯.

질의의 '의미 파악'을 일단 해당 질의 내 단어의 '주제분야 파악'으로 먼저 봤던 것 같은데,
이렇게 러프한 의미 파악으로는 실제로 복잡 다양한 이용자 의도를 만족시키기는 약간 부족한데... 음... 시맨틱 검색 고민된다.
나도 나름 차세대 검색에 있어서 핵심 기술이라고 생각하는데 말이지.

p.s 큐로보 라는 서비스 네이밍은 잘 안외워지는 네이밍이다.
큐보로인지 큐로보인지 헷갈리공 -.-  쫌 더 쉽고 명확한 걸로 짓지.

--- 주요 내용 요약 ---
* 검색엔진 발전 방향
정보공유 필요성 -> 정보를 풍부하게 할 필요성 -> 원하는 정보의 손쉬운 접근, 분류된 정보
-> 더욱더 많은 정보 -> 양질의 정보에 대한 정렬(알고리즘 로봇) -> 더 정확한 검색결과 (소셜, 의미, 개인화)

* 시맨틱 검색
의미검색 : 검색어와 동일한 의미를 갖는 기술
시맨틱검색엔진 기능
- Grouping  : 주제 기반
- Meaning   : 기계가 알아들을 수 단어
- Reasoning : 기계 스스로 추론
현재 Meaning 단계 & Reasoning 초기 단계

시맨틱검색엔진 예
- Hakia : 백과사전형 컨텐츠. 전체 페이지 50% 정도는 수작업에 의해 진행 
- Quintra

시맨틱 검색엔진 구현 기술요소
(일반) 시맨틱 검색 = 시맨틱 웹을 검색해주는 거다.
기존 웹 vs. 시맨틱 웹
- 홈페이지 제작 방법
- 홈페이지 제작 툴
- 홈페이지 제작 난이도
- 정보 등록 방법
...
-> 한마디로 정보량이 구멍가게 수준

시맨틱 검색엔진 구현 방안
(일반) 온톨로지(수작업) -> RDF 문서를 수집/탐색하는 크롤러 모듈 -> 시맨틱 검색엔진
(제안) 웹으로부터 의미기반 DB생성 (로봇 자동생성, 약 1% 정도의 수작업)
     -> 크롤러 모듈 (의미기반 DB에 의해 일반 웹페이지에 시맨틱 특성 부여된 페이지 탐색)

* 시맨틱 검색엔진 해결해야 하는 과제들
- 70% 정도의 자동화, 나머지는 수작업해서 온톨로지 개발

Posted by 시루

구글의 조직, 비젼, 전체 서비스 구조 등에 대해
블로그나 뉴스 등을 통해서 정말 많이 접해왔다고 생각했는데,
직접 사장급 관련자에게 강의를 들으니 그동안 조각조각 들었던 것들이 전체적으로 정리가 되었다. 즉. 구글의 전체 기술과 문화 Overview하는 기회로는 좋았다.
 
단, 강의 내용 중 일명 '기존 포털'과 '구글'을 비교하는 장표가 있었는데
Search, Gate로서의 철학을 강조하기는 하나 구글의 포털형 서비스 라인업을 보면
꼭 그렇지도 않은데 너무 강조하시더라.

물론 서비스의 '메인화면'은 중요하다.
적어도 메인 화면에 이것저것 걸어놓지는 않으니까.
그래도 내가 보기에 구글은 포털이다. (겉으로 보기에 느슨하게 연결되어있어서 그렇지)

그리고... 2Q에도 서비스 오픈할꺼고,
아마도 3Q, 4Q에 봇물처럼 나올꺼란다.

몹시~ 기대된다. 쫌 글로벌 구글다운 색다른 구글코리아 작품들이 나오길.

발표 후 시간이 없어서 급히 나가시던 조원규 사장님께 물어봤던 질문.

Q. 모든 것이 자동화, 머신러닝 사용한다고 하는데,
   검색품질 관리하는 인력있고 테스트 인터페이스 본적 있음
   검색품질 관리하는 인력 규모는 어느 정도?
   그 인력들에 대해 사내 어떤 관점을 가지고 있나?

A. EVAL을 하는 인력은 있다.
    그러나 EVAL은 EVAL일뿐. 실제 서비스 굴러가는 거는 자동화다. 사람손 안탄다
    (계속 강조하심. 정말 구글 사라들은 집착증이 있는 것 같다. 자동화에 대해서)
    인력 규모는... 꽤 된다고는 하는데 자세히는 밝히시기 어려우신 듯.
    아- 그리고 구글코리아 성인인증 붙이고, 수동 운영 인력 전혀 없단다. (이것도 강조 -.-)

Q. 구글식 통합검색 EyeTracking 실험 결과? 자체적인 평가는? (못 물어봤음)


--- 주요 내용 요약 ---

* 구글 Overview
구글 Mission :
Organize the world's information and
make it universally accessible and useful

Finding
Ranking
Reliability
Freshness
Speed
...

수치들
미국 이외의 검색 중 50%
전세계 검색 중 61.8%
지원 언어 112개
국제 도메인 157

* Innovations @ Google

1) Storing the Web
20+ billion web pages x 20KB = 400 terabyte
GFS (Google File System) : Distributed, Scalable, Reliable, Efficient

2) Organizing the data
BigTable : (구글 파일시스템 위에 올라가있기 때문에) Distributed, Scalable, Reliable, Efficient

3) Processing the data
실시간 쿼리 처리 능력필요 10K's per second
Cheap Linux boxes
Sohpisticated Server management System
MapRedue : 병렬 처리

4) Utilizing the data : Machine Learning
- Spelling correction
- Spam filtering
- Machine Translation
- Onebox triggering : 어떤 쿼리에 Onebox를 노출해야 하는지
- Accessory detection in Product Search
- Content Ad targeting
- Machine failure detection

검색철학
Portal vs. Search
- Goal : 구글, 어떻게 하면 원하는 정보로 빨리 보내줄 것인가
- Content Ownership : Facilitate creation of open contents, Outlink to contents
- Apps vs. Platform : Build Platforms, 안드로이드, 오픈소셜
- Search & Ads : 편집하지 않는다, 중립성, 수작업 병적으로 싫어함
                 Don't be Evil (검색결과를 편집하지 않고, 광고를 무조건 돈만 준다고 위에 올리지 않는다)

Search Metrics
Comprehensiveness : 검색커버리지
Relevance : 정확성 (Top10안에 원하는, 되도록이면 Top7 안에)
Speed : 0.5초 안에 결과 나와야 한다
User Experience : 사용자 편의성

구글 유니버설 검색 : 블랜딩, Top10 안에 원하는게 나와야 해서 섹션별 검색 안함

Innovation : from unique culture
- 조직구조가 수평적(flat)
- 작은 팀조직 (한 팀 5-6명 정도)
- 70 : 20 : 10 = 주요사업(검색, 광고) : 주변 서비스 (Gmail, Apps 등) : 본 사업과 상관없는 사업 (하드웨어, 주파수 경매 참석)
- 20% 프로젝트 (80% 시간은 현재 업무, 20% 시간은 자기가 원하는 것)
- 사내에서 모든 정보 오픈
- 잦은 실험과 실패 허용

* 구글코리아
20여개국 50여개 지사 설립 중 R&D센터 갖춘 지사 : 구글코리아
최근 가장 큰 런칭 : 유튜브, 한국식 유니버설 검색
왜 현재까지 9개 제품밖에 런칭 못했냐.
-> 초기 코딩하는데까지 시간 걸림. 기반 인프라
2008 Q3, Q4에는 정말 많은 서비스가 나올 듯.
2Q에서도 많은 런칭 기대

Posted by 시루

지난 2주 동안 국내에서는 쓰리소프트가 엠피드라는 RSS피드 검색서비스를 오픈했으며, 티맥스소프트가 기업검색 시장에 진출하겠다는 의지를 밝히는 등 솔루션 업체들의 검색 서비스 & 기술 시장 진출이 눈에 띄었습니다.
또한 총선철을 맞이해서 다음과 네이버가 총선 후보자들 프로필 검색컬렉션을 일제히 오픈했습니다.

해외에서는 구글이 2월에도 미국 검색시장 점유율이 거의 60%에 육박하는 정도로 늘었다고 하고, 야후가 구글의 오픈소셜 네트워크에 합류했습니다.
또한 구글재팬, 구글 차이나 등이 메인화면을 한국과 유사하게 (화려한 모드) 개편하였습니다.

more..

Posted by 시루

지난 2주 동안 국내에서는 네이버가 애니메이션 정보 컬렉션, 인물 버티컬 검색 오픈을 했으며,
Daum에서 국어사전 업그레이드 및 카페글 검색 DB확대/엔진 교체가 진행되었습니다.

해외에서는 MS-야후 인수 이슈가 MS의 적대적 인수 시도로 이어지는 분위기 이며,
모바일 검색 관련해서 구글-노키아, 야후-T모바일 제휴가 잇따라 이루어졌으며,
Future Camp, Mobile World Congress 등의 컨퍼런스 등을 통해 모바일 검색이 관심을 받았습니다.

more..

Posted by 시루

지난주 국내에서는 구글코리아가 학술검색(scholar.google.co.kr) 을 오픈했으며,
오픈마루가 ‘롤링리스트’ (www.rollinglist.com)라는 리스트 컬렉션 생산 플랫폼을 오픈했습니다. 또한 파란이 지오피스(www.geopis.co.kr )라는 온라인 지형도/지적도 제작업체와 제휴를 맺었습니다.

해외에서는 구글의 스카이프 인수설이 돌고 있으며,
구글 지도 서비스에서 이용자가 직접 특정 업체나 장소에 대한 위치 정보를
편집할 수 있는 기능이 추가되었습니다.

해외 신규 사이트로 Retrevo (www.retrevo.com) 라는 전자제품 전문 쇼핑검색 서비스를 소개합니다.
이용자의 구매 단계와 니즈를 잘 파악하고 있으며,
특히 쇼핑검색 초기 단계에 많이 필요한 ‘가이드형’ 검색결과를 잘 제공하고 있습니다.

more..

Posted by 시루

지난주 국내에서는 자사 ‘해외여행상품 비교 검색’과 ‘영화 버티컬 검색’ 과 같은
즐거운 ^^ 신규 오픈 소식이 있었으며 (아직 이용자 반응은 모니터링 중)
서울대 컴공과 벤처에서 만든 Wispon 이라는 신규 검색엔진에 대한 언론 보도가 있었습니다.
또한 SKT에서 네이트 모바일 사전 검색을 강화했습니다.

해외에서는 AOL이 Q&A 서비스 업체인 Yedda를 인수했으며,
야후가 동남아시아 모바일 검색 제휴를 공격적으로 진행하고 있다고 합니다.
또한 MS가 웹마스터 센터를 정식 오픈했습니다.

more..


Posted by 시루

지난주 국내에서는 벅스가 허밍검색(http://hsearch.bugs.co.kr/)을 오픈했으며,
자사 검색UI개편 버킷테스트 진행 건이 블로거들 사이에서,
자사와 KT간의 음성 전화검색 공동개발 제휴건이 언론 사이에서 이슈가 되었습니다.

해외에서는 MS가 Facebook에 지분투자 약 2,200억원 가량 한 소식이 화제가 되었으며,
구글 일본, 야후 인도 등에서 모바일 검색을 강화하는 움직임을 보였습니다.

more..

Posted by 시루

지난주 국내에서는 파란이 웹뉴스 컬렉션을 오픈하고,
엠파스가 동영상 검색에 다음tv팟, MBC 20년 뉴스 DB를 추가한 건 이외에 특별한 이슈는 없었습니다.

해외에서는 MS가 LiveSearch411 이라는 음성 지역검색을 새롭게 오픈했으며,
구글의 GOOG411 이 베타를 마치고 정식오픈했습니다.
그밖에 MS는 지도검색에서도 Birds eye view를 3D로 브라우징할 수 있는 기능을 추가한다거나, MS 지도에 UCC 데이터를 맵핑해서 제공하는 등 지역 검색에서도 업그레이드가 진행되었습니다.

more..

Posted by 시루

BLOG main image
검색하며, 사랑하며, 성장하는 당신 그리고 나 by 시루    About Me

카테고리

분류 전체보기 (1256)
공부 (32)
검색 (81)
(10)
블로그 (4)
기획 (5)
일상 (18)
신앙 (10)
독서 (4)
문화 (4)
여행_나들이 (29)
Links (516)
미투데이 (410)
결혼 (3)


Statistics Graph
Total : 415,104
Today : 3 Yesterday : 14