이 글은 제 9회 삼성 소프트웨어 멤버십 공개 세미나에서 보았던 것에서 떠올린 생각들을 끄적 거렸습니다.

홍익대학교에서 설명회를 하였던 11월 25일 화요일 제 9회 삼성 소프트웨어 멤버십 공개 세미나


여기서 멀티미디어 정보검색기술에 대한 세미나를 듣게 되었습니다. 도대체 어떤 내용인지를 알고 싶어서 들어보았는데, 저에게 충격을 준 동영상을 틀어주더군요.

위의 동영상은 midomi에서 아이폰에서 음악 검색을 정확하게 해주는 것을 홍보하는 동영상인데 멀티미디어 정보검색기술을 설명하기 위해서 이 동영상을 세미나 도중에 틀어주게 되었습니다.

음성인식기술이 이렇게 발전했다는 것이 대단하게 느껴졌습니다. 흥얼흥얼 거리는 노래가 내가 모른다면 아이폰으로 검색하면 다 나오는 시대가 되었다는 것입니다.

Midomi.com 에 보시면 자세한 내용을 보실 수 있답니다.

Midomi mobile : the ultimate music search and discovery 

With midomi, you can search for music in FOUR different ways. 

- SING: just sing or hum a few seconds of a song, and midomi will find it!

- GRAB: hold your phone to a speaker playing original music for a few seconds, and midomi will identify what's playing!

- SAY: it's easier than typing. Just say the song or artist name you're looking for, and midomi will find it!

- TYPE: The old fashioned way to search, but no need to spell it right. Just type a song or artist name the way it sounds, and midomi will find it! 

Once you find a song, see the YouTube video, or buy it from iTunes. You can also see artist photos, albums, and biographies, even browse midomi.com user profiles, see their pictures, listen to their recordings, and lots of other cool things.

인터넷의 발전으로 누가(Who), 언제(When), 어디서(Where), 무엇을(What), 어떻게(How), 왜(Why) 정보를 만들었는지 알기 위해서 검색이 필요하게 되었습니다.
인터넷에서 폭발적으로 늘어나는 정보들을 찾기위하여 정보를 검색하기에 이릅니다.
이를 테면 Yahoo!Google과 같은 정보검색엔진들이 나타났다는 것이죠.

이런 인터넷에 있는 정보들을 찾으려면 정보검색(Information Retrieval)을 해야 하지요.
정보검색에 대해서는 아래의 Database Management System 3rd Edition Chapter 27: Information Retrieval and XML Data Management 를 참고해보시기 바랍니다.
책을 보기 힘드신 분께서는 아래의 Slide를 참고해보시기 바랍니다.

위의 Slide나 책을 보면 DBMS와 Information Retrieval의 비교가 나온다. 

 IR(Information Retrieval)

DBMS 

 주관적인 의미검색 (Imprecise Semantics)  정확한 의미검색 (Precise Semantics)
 단어 검색 (Keyword Search) SQL Query문에 의한 검색 
 비구조화 데이터 포맷으로 구성됨 (Unstructured Data Format) 구조화된 데이터 (Structured Data)
 대개 읽기를 함. 때때로 문서들을 추가함.(Read-Mostly. Add docs occasionally) 많은 수의 문서들이 수정,삭제, 추가등의 작업을 함. (Expect reasonable number of updates)
 결과중 최고 몇개만을 보여줌. (Page through top k results)  SQL Query문의 결과를 모두 보여줌 (Generate full answer)


DBMS가 단순히 정보를 저장하고 쿼리(Query)문을 주면 쿼리문에 만족하는 정보를 모두 알려주지만, IR은 keyword를 주면 그 keyword들이 어디있는지를 저장한 Inverted File(역파일)에 있는 내용을 찾아내어 어디 있는지를 저장한 곳을 알려주는 차이점이 있습니다. IR는 참고로 정보를 추출하는데에 주관적으로 검색하기 때문에 정확한 검색이라는 것을 하긴 어렵습니다.

문서를 검색하는데에 Inverted File을 만들어서 관리하는 IR의 개념만 알고 있던 저에게 삼성소프트웨어멤버십 공개세미나에서 보여준 멀티미디어 정보검색은 저에게 충격자체였습니다.

멀티미디어인 소리, 사진을 검색하는 것을 웹문서에 그림과 같이 붙어있는 글자로 검색하여 찾는 것만 아니라 실제로 소리, 사진을 비교하여 검색 결과를 보여주는 것을 눈으로 보여줬기 때문입니다.

소리를 들려주고 검색하여 음악의 정보를 알려주는 midomi의 검색이나 삼성소프트웨어멤버십분이 보여준 음악검색을 보니 정말 신기하기 그지 없습니다.

멀티미디어 정보를 검색하려면 그 멀티미디어 파일을 알고 파일 접근하여 파일안의 내용을 인식하는 기술이 필요하지요. 그런데 멀티미디어 정보를 검색하는 것은 단순히 문자를 검색하는 것과 달라서 이런 위의 컴퓨터공학에서 처리하는 단어처리, 문서처리, DBMS, IR(Information Retrieval)내용뿐만 아니라 전자공학에서 배우는 신호처리, 이미지처리등을 알아야 검색을 할수 있더군요.

현재에도 웹의 발전으로 인하여 멀티미디어 정보들이 쏟아지는데, 미래에는 멀티미디어 정보검색이 필요할 것으로 예상됩니다. 현재의 정보검색이 Text기반으로 하여 이미지, 음악, 동영상 검색도 Text기반이라 Text에 달려 있는 것만 검색되어 검색 품질이 생각보다 낮습니다. 이런 Text기반의 검색은 원하는 결과를 찾기는 힘들 수 있습니다. 미래에는 멀티미디어파일을 직접 찾아서 검색하여 원하는 결과를 보여주는 검색엔진이 나올까 이런 생각도 해봅니다.

Text 문서를 찾는 정보검색은 이미 Google의 Page Rank 알고리즘으로 대개 원하는 검색 품질을 얻게 되었지만, 지금까지는 멀티미디어 정보검색은 완성단계에 오진 않았습니다. 그렇다만 미래에는 멀티미디어 정보검색을 하면 어떤 알고리즘, 어떤 신호처리, 이미지처리프로세스를 거쳐서 원하는 검색품질이 나오게 될 것 같은 생각을 해봅니다.

현재, Google의 Google Audio Indexing (GAudi)에서는 동영상에서 말하는 단어를 찾는 검색을 보여주고, 네이버얼굴사진검색, Midomi에서 보여주는 흥얼거리면 음악검색을 해주는 것에서 멀티미디어 정보검색을 시도하려는 노력을 하고 있습니다. 미래에는 나열한 것보다 훨씬 진일보적인 멀티미디어검색들이 많이 나오겠죠?

멀티미디어 정보검색에 대해 많은 생각을 해보게 되었습니다. 단순히 컴퓨터공학만 아니라 전자공학의 내용도 알아야 접근할 수 있는 내용들이 너무너무나 많더군요. 

임베디드, 모바일쪽만 아니라 인터넷에서 컴퓨터공학과 전자공학이 이렇게 만날수 있다는 것을 알게 되었습니다.

대학 4년동안 컴퓨터공학을 전공하였어도 컴퓨터공학 내용을 전부 이해하지도 못하고 졸업하는 사람에게 전자공학적인 내용까지 알려준 멀티미디어 정보검색 세미나를 들으면서 아직도 공부할 것이 많다는 것을 느끼게 하였습니다.

Buy me a coffeeBuy me a coffee

NHN UIT Center Ajax UI Lab 에서 만들었다는 아이언맨 패러디 동영상 이라고 하더군요

저는 Firefox유저, Opera유저에 Windows와 Linux를 같이 쓰는 유저라 Naver에 접근하기가 엄청 힘들어요.
Firefox에서 Naver서비스를 접속할 때에 제대로 화면을 안보여줄때마다 정말 즐!이라는 말까지 했을 정도니까요.
Naver Blog같은 경우는 화면이 제대로 나오지 않아서 짜증냈던 적이 한둘이 아니군요.
(Daum같은 경우는 웹표준 준수하면서 Firefox에서도 보이게끔 해줘서 Daum을 많이 쓰긴 합니다만 ;;)

동영상을 보니깐 아이언맨 패러디에 웃고 Naver에서 야심차게 웹표준을 준수하겠다는 의지를 볼수있군요.
이번에 네이버가 Firefox, Safari까지 지원한다니까 기대하겠어요.

동영상을 보니깐, 네이버에서는 야근하면 80만원준다고 하군요. (우리가 아는 S기업에서는 야근비 80찍는사람이 널렸다고 하더군요 -_-;;)
그런데 야근비를 80만원까지 받을려면 야근을 하루종일 밥먹듯 일상이 되어야 받는 걸로 알고 있는데 네이버 직원분들은 야근을 밥먹듯 하여 프로젝트 결과를 낸 것 같은 느낌이 들군요.

Jindo/Jindo2는 네이버에서 사용하는 자체 개발한 JavaScript Framework 이라고 하네요. (요즘 Project로 하고 있는 Open Source Project인 Sakai Project에서 쓰는 struts Framework와 Spring Framework를 분석하면서 머리가 돌이 된 것처럼 사람 죽이던데 Naver에서 Jindo/Jindo2 Framework를 만든 사람들은 정말 야근비 80만원찍어났을듯 ㄷㄷㄷ)
죽어라 야근을 했을 Naver직원분들께 대단하다고 생각됩니다.

ps. 네이버 취직해서 돈 많이 벌어보고픈 생각이 들군요 ㅎㅎ

'끄적거림' 카테고리의 다른 글

Norton Fighter  (0) 2008.07.29
휴대폰으로 과연 통화만 할까요?  (0) 2008.07.11
내 이름은 성대현.  (1) 2008.05.27
클라나드(CLANNAD) 오염도 체크  (1) 2007.11.15
추석엔 방에 콕 박혀있다.  (3) 2007.09.22
Buy me a coffeeBuy me a coffee

이번에 블로그를 돌아다니다 흥미있는 글들을 보게 되었다.
네이버 SE의 형편없는 검색결과이라는 글을 보고 나서 댓글을 보았더니 네이버 검색을 한번 해보고 싶었다.

네이버 SE검색

네이버 SE검색. 화면이 아주 깔끔하게 정리되어 있어 쓸데 없는 링크나 광고를 없앴다.

Naver SE검색에서 여러 키워드로 검색을 해보았는데, Naver 첫 화면에서 검색하는 거랑 뭐가 차이가 있는지 거의 결과가 비슷하였다. Naver DB에 있는 검색결과만 나오는 것이였다.
모님의 말처럼 네이버의 주 검색대상은 네이버 자사의 컨텐츠와 네이버가 쌓은 DB인 것 같군요.
네이버의 웹검색을 해보자면 정말 형편없을정도로 다른 곳에서 검색되는 것을 검색하기가 힘듭니다.
그리고 구글, 다음, 엠파스등에서 네이버에 있는 자료를 검색했을때 원하는 자료를 얻기 힘들정도로 네이버의 DB를 접근하지 못하게 하려고 노력을 많이 한것 같더군요.

Naver SE검색에서 뭔가 새로운 기술들이 있나를 기대를 했다만 새로운 기술은 없고 Simple Experience 검색의 약자로 네이버 검색에서 바뀐것이 하나도 없었습니다.
다만 네이버안 문서가 아닌 것들은 대부분이 블로그 글들 일까나요? RSS피드가 XML구조로 검색하기 쉽고 블로그 주소와 XML구조만 알면 금방 자료를 얻을수 있기 때문에 네이버에서 직접 찾은 내용은 블로그 검색밖에 없습니다.

Naver에서 검색하는 것은 네이버 내부 자료만들 검색한다는 느낌이 듭니다. 네이버 외부자료를 검색할때에는 블로그 RSS만들 검색하는 느낌이랄까요?

 RevU사이트의 사장님이신 Steve Han님의 글을 보면, 네이버의 검색결과의 품질은 구글보다 한 수 아래임을 볼수 있습니다.

Steve Han :

위 까모님에 대한 반론을 안드릴 수 없군요.

사용률에 의한 랭킹이라는 것.
어느 검색엔진이나 처음에 어떤 팩터를 가지고 기본 우선 순위를 만들어 내는가가 매우 중요하죠. 왜냐하면 연구에도 나왔듯이 구글의 경우도 상위 15%에 검색되는 페이지가 85%의 클릭을 가져가기 때문입니다. 이것을 모든 검색에서 "Rich get richer" 라는 문제로 고민하는 주제입니다.

처음에 어떤 팩터를 기준으로 네이버 내부 데이타를 상위에 보이게 되면 사용자는 당연히 그 데이타를 더욱 사용하게 되죠(*주 : 사용패턴의 종속성에 대해 지적하는 부분). 요건 눈가리고 아옹하는 겁니다. 왜 초기에 아직 사용자에게 노출되기 전에 네이버 내부 DB가 외부의 웹사이트에 있는 페이지 보다 더 우선하는가에 대한 대답이 없이 사용율에 따르는 것이라고 하면 검색알고리듬을 왜곡하시는 거죠.

구글도 페이지랭크 뿐만 아니라 120 여개의 팩터를 감안해서 계속 어느 페이지가 상위에 올라야 하는지 랭킹 알고리듬을 수정하고 개선해갑니다. 그런데 왜 네이버는 모든 데이타는 네이버 안의 데이타가 상위가 올라갑니까? 허접한 지식인의 질의 응답이 그보다 더 전문적인 웹 페이지보다 더 우선한다는 것은 검색기술의 상식으로 이해가 안됩니다.

단지 사용률로만 한다는 거는 페이지의 품질은 포기하고 인기도만 따진다는 것인데, 그렇다면 정말 네이버의 검색은 그 수준이 형편 없다는 것을 인정하는 것이죠.

먼저 띄워놓고, 사용률이 높아서 라고 하는 것은 검색을 연구하는 사람이라면 부끄러워서 할 수 없는 얘기를 하신다고 생각합니다.
Steve Han님의 이야기 처럼 네이버의 검색수준은 Google보다 아주 형편이 없다고 보는 것이 좋을 듯 합니다.
네이버 검색했을때 네이버 안의 데이터가 상위로 올라가는 시점에서, 과연 네이버에서 검색하는 것이 좋은 결과를 볼수있는지는 불보듯 뻔하죠. 좋은 결과가 나오지 않고 네이버안에 있는 자료들만 볼수밖에 없는 결과로만 나옵니다.
네이버가 국내에서 성공한 것이 검색엔진의 성능이 좋아서가 아니라 네이버 내에 쌓아둔 지식인의 덕택인데, 이제 Google의 국내 입성을 방어하기 위해서는 검색엔진의 성능을 높혀야 합니다.
Naver SE검색에서 거의 대부분 네이버 안의 자료만 검색되는 이 마당에서 새로운 서비스라고 하는 것이 아쉽습니다.
Google를 따라 잡기 위해서 노력을 게을리 하는 느낌이 왜이리 들까요? 네이버의 독주가 국내에 계속 지속될지가 궁금합니다.

ps. Naver SE검색을 다루는 이왕에 이번에 다음에서 새로 개발하고 있는 웹검색엔진인 ws검색도 여기에 올려야하지 않을까 한다.
이번 Daum에서 시도하는 Daum웹검색 Beta 서비스인 ws검색이다.(http://ws.daum.net)
Naver랑 다르게 새로 검색엔진인  다음 로봇 DAUMOA을 개발해서 Bata서비스를 보여주는 것으로 검색엔진의 품질은 생각보다 낮다만 네이버처럼 네이버DB에 저장된 자료들만!을 찾지는 않는 것 같다.

Daum 웹검색 BETA

이번 다음에서 새로 선보이는 웹검색Beta서비스. 다음에서 실제로 쓰는 검색엔진이 아니라 새로 개발한 검색엔진을 채용하였다.

네이버에서 쓰고 있는 검색엔진에서 심플하게 만든 네이버 SE검색과 Daum 웹검색 Beta와 비교는 할수가 없다.
Daum웹검색은 그야말로 웹검색만을 하기 위해서 다음 로봇 DAUMOA를 새로 만들어서 쓰는 서비스라서 네이버 SE검색과도 검색품질을 비교할수 없다.

이번 네이버나 다음의 행보를 볼때, Google을 따라잡기 위한 피눈물나는 노력을 많이 하는 것 같다. 이번에 다음이 WS 검색을 성공적으로 발전시킨다면 네이버보다 혁신적이 될까 생각도 된다.
Buy me a coffeeBuy me a coffee
관련포스트
은은한 모습으로 개편한 Daum
저는 다음의 전반적인 변화에 대해 포스팅을 하였습니다.
웹표준의 관점에서 포스팅한 새롭게 바뀐 다음(daum)의 웹표준 을 보시려면 여기를 클릭하시기 바랍니다.

다음에서 일하시는 oojoo님께서 Me2day에 이런 글을 올리셨더군요.
http://me2day.net/oojoo/2008/02/03#12:09:40
구정을 앞두고 Daum의 첫 대문이 바뀌었습니다깔끔하죠~
확인해 보니 정말 Daum의 첫 화면이 깔끔하게 바뀌어져 있던겁니다. +_+ 가만보니까 웹표준을 맞추기 위해서 노력한 흔적도 보입니다.
Daum 첫 화면

이번에 Daum의 첫 대문이 바뀌었습니다. 깔끔하게 바뀐 다음 첫 화면.


다음 첫화면만 바뀐지 확인하기 위해서 여기저기를 보니까 많이 바뀌었더군요. 웹표준에 맞추려고 노력한 흔적도 보이고요.
예전의 모습에서 업그레이드하여 시원하게 보입니다. 웹표준에 맞추면서 시원하게 보이니까 뭔가 자주 가게 되고 싶더군요.
이번에 바뀌어진 내용들을 보려면 2008! 새로워진 Daum을 만나세요 를 보면 알수 있답니다.

이번에 깔끔하게 바뀌니까, 예전의 칙칙한(?)화면보다 엄청 많이 바뀐 것같네요. 첫화면이 깔끔하게 바뀐거를 보다가 갑자기 예전 생각이 났습니다.
예전 제 여동생과 네이버와 다음이야기를 하다가 이런 소리를 하던 것이 생각이 나더군요
어떻게 다음이 아직도 있는지가 궁금해. 네이버보다 화면이 너무 칙칙하고, 네이버 얼마나 깔끔해. 지식인도 있고, 그래서 난 네이버만 써
제 여동생은 여고생이며, 다음 화면이 구려서 별로고 네이버만을 쓴다고 하더군요. 여동생 친구분들도 네이버가 제일 깔끔해고 보기 좋고 편해서 네이버를 쓴다고 하던데, 그런 소리를 듣고 나선 전 불안했습니다.
다음이 계속 이렇게 지내다간 네이버때문에 망하는 거 아닐까나?
(이 윗글은 보통 인터넷을 쓰는 고등학생들의 생각들입니다)

요즘따라 다음이 네이버를 따라 잡아서 Google을 넘으려는 계획을 많이 하는 것 같습니다. OpenAPI나 다음 UCC등등 네이버를 따라잡기 위해서 노력을 하는 것 같은데 이번 화면이 깔끔하게 바뀐것도 이런 네이버 따라잡기인것 같습니다.
그런데 이렇게 노력한다고 해서 네이버의 독주를 잡을수가 있을지가 궁금하네요. 네이버 통합검색의 위력이 아직도 어마어마하기때문이죠.

퓨쳐캠프에서 강연을 하셨던 전병국님의 재미없는 검색시장 분석과 전망이 갑자기 생각이 나버렸습니다.
3. Daum의 약진이 계속될 것이다. 그러나 딱 Cafe만큼만 자랄 것이다. 혁신적인 모험을 하지 않는한.

이와같이 Daum이 변화를 모색하는데 네이버 통합검색를 뛰어넘는 혁신적인 것을 보여줬으면 네이버를 뛰어넘어 구글까지 넘보지 않을까 합니다.

이번 화면이 바뀌고 등등의 다음의 새로운 변화에 대해 앞으로도 기대가 많이 됩니다.
Buy me a coffeeBuy me a coffee

+ Recent posts