블로그 이미지
.
속눈썹맨

공지사항

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

calendar

1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31





검색엔진이 영리해졌다고?「아직 멀었다」




Dan Farber (ZDNet Korea)







2004/05/14
원문보기











2년마다 회로 집적도가 2배씩 증가한다는 것이 무어의 법칙이다. 데이터는 9개월마다 2배씩 늘어나며, 전세계 웹의 크기도 엄청난 속도로 커지고 있다. 다행히 무어의 법칙 덕분에 하드웨어 처리속도가 빨라지고 비용은 낮아지면서, 이렇게 증가하는 데이터에 대응하고 있는 상황이다.

하지만 원하는 결과를 얻기 위한 스캐닝 속도가 테라바이트, 페타바이트급으로 빨라지고 있는 반면, 웹이나 데이터 웨어하우스에서 원하는 것을 찾아내는 ‘결과의 정확도’에 대한 발전은 그 속도를 따라가지 못하고 있다.

정확한 검색결과라는 질적인 측면에 있어서 2년에 2배가 된다는 무어의 법칙은 적용되지 않고 있다. 사실 ‘검색 결과의 법칙’은 데이터가 확장되고 복잡성이 증가하는 것과는 반비례 관계에 있다고 할 수 있다.

얼마전 닐슨노먼그룹은 ‘웹 유저빌리티 2004’라는 한 조사결과를 발표했다. 여기에서 사람들은 ‘성공적인 웹 사용을 저해하는 가장 큰 장애물’로 검색을 지목하고 있다.

조사결과 인터넷을 이용하는 사람들의 88%는 첫 페이지로 검색사이트를 이용하고 있으며, 한번 인터넷을 이용할 때마다 검색엔진을 제외하고 평균 3.2개의 사이트를 방문하는 것으로 나타났다.

원하는 검색 결과를 얻었는가에 대한 만족도는 42%에 그쳤는데, 일반 사용자를 제외하고 숙련된 사용자만 대상으로 해도 낙제 수준이라고 할 수 있는 50%에 불과했다.

특히 검색 결과 만족도가 최하로 나타난 분야는 기업 내부 데이터 검색이다. 사용성 전문가이자 닐슨노먼그룹 사장인 제이콥 닐슨은 “현재 기업 내부, 인트라넷 검색 결과는 조악하기 짝이없는 수준”이라고 혹평했다. 대부분의 기업내 사용자들은 기업에서 제공하는 내부 검색엔진 대신 방화벽 넘어 웹 검색엔진을 사용하고 있다.

이러한 문제의 원인에는 검색이 기본적으로 입력->출력 메카니즘이라는 것도 포함된다. 조사에 응한 사용자들의 60%는 검색시 한 단어만 입력하고 있으며, 20%는 2단어를 사용한다고 답했다. 검색엔진이 제공하는 ‘고급 검색’ 기능을 이용하는 비율은 1%에 불과했고 정확도를 높이기 위해 쿼리 기호를 사용하는 사용자는 응답자의 3%에 그쳤다.

또 51%의 사용자가 검색결과 페이지에서 가장 상단에 위치한 링크를 클릭하며, 두번째 링크를 클릭하는 비율은 16%로 급격히 떨어졌다. 이러한 결과는 기업 데이터 검색에 대해서도 비슷한 양상을 보였다.

여기서 ‘검색엔진을 이용해 정보를 구하는 사용자들은 결코 기본적인 툴과 기술 이상은 사용하지 않는다’는 '검색의 법칙'을 도출할 수 있다.

닐슨은 이와 같은 사용자 행동양식을 변화시키기 위한 방법으로 검색창을 눈에 쉽게 띄는 곳에 두고 길이도 27자 정도로 늘리기(사람들이 여러 개의 단어를 사용할 수 있다는 것을 느끼도록), 철자법 검사, 쿼리 수동조정과 같은 것들을 제안했다.

그는 “가장 많이 입력되는 1000개의 쿼리 용어를 뽑아, 해당 쿼리에 대해 가장 많은 사람들이 방문하는 장소를 수동으로 지정하는 등의 편집기능을 검색엔진에 넣을 수 있다. 또 검색 로그를 보고 가장 빈번한 ‘결과물’이 무엇인지와, 그 결과물을 찾기위해 사람들이 어떤 검색어를 입력하는지 분석해 이들을 검색엔진에 유의어로 등록하는 방법도 있다”고 말했다.

닐슨은 이어 컨텐트에 페이지 타이틀, 헤드라인, 요약문과 같은 유효적절한 메타데이터를 추가함으로써 검색결과의 질을 높일 수 있다고 설명했다. 여기서 두번째 검색의 법칙을 찾을 수 있다. 즉, '자동화만으로는 만족스러운 검색 결과 도출이 어렵다'는 것이다.

더욱이 기업 데이터는 체계적인 형태와 체계적이지 못한 형태(이메일, 오피스 문서, 웹페이지, 오디오 파일 등)로 존재하며, 이 데이터들은 제각기 뿔뿔이 흩어져 존재한다. 또다른 검색의 법칙은 ‘검색 데이터에 포함돼있지 않은 정보는 결코 찾을 수 없다’라고 할 수 있을 것이다.

닐슨노먼그룹의 조사에서 나타난 결과들과 응답자들의 사용 습관을 보면, 현재의 검색엔진이 사용자들에게 만족스러운 결과를 제공하기 위해서는 더 영리해져야 하고 초점을 분명히 해야 하며, 앞뒤 문맥 연관관계를 더 잘 고려해야 한다. 이용자 대부분은 검색 결과 정확도를 높이려고 고급 검색기능을 이용하지는 않기 때문이다.

기업들은 최소한 자체 검색을 개량할 필요가 있다. 분류법과 메타데이터 향상에 더 투자하고, 지속적으로 엔진을 튜닝해주고 향상시켜 줄 수 있는 회사의 검색엔진을 도입해야 한다.

오토노미 패스트, 구글, 노던 라이트, 베리티, 비비시모와 같은 검색업체들은 각기 다양한 기술적 접근방식을 갖춘 기업용 검색엔진을 제공하고 있다. 예를 들어 구글은 페이지랭크와 텍스트-매칭 기술을, 오토노미는 개념 매칭 및 베이지언 추론 기술을 적용하고 있다.

엔지니어링 및 기술분야 검색엔진을 제공하는 글로벌스펙과 같이 특정 분야에 한해 범용 엔진보다 더 향상된 결과를 제공하는 검색엔진도 있다.

현재 IBM이 개발하고 있는 ‘웹파운튼’ 검색엔진 툴은 컨텐트를 인덱싱하고 메타테그를 붙이기 위해 수천개의 프로그램을 계속해서 돌리며, 전후 문맥을 파악하기 위해 자연어 분석 기능을 채택하고 있다. 웹파운튼은 기업의 복잡한 쿼리에도 대응하는 것을 목표로 개발되고 있다.

가까운 미래에 검색 분야에 큰 혁신이 있을 것으로 기대하기는 어렵다. 야후 리서치 랩의 수석 연구원인 개리 플레이크는 지금 검색을 “음반업계에서의 8트랙-테이프와 같다”고 말했다. 이 표현이야 말로 검색에 대한 마지막 법칙을 설명하고 있다. 윌리엄 셰익스피어의 문구를 인용하자면, “그것들을 찾으려면 하루종일 찾아야 하고, 막상 찾아놓고 보면 찾을만한 가치도 없는 것들”이다. @