精校书屋

手机浏览器扫描二维码访问

第24部分(第2页)

当时我们组叫媒体计算组,主要从事多媒体计算,包括图像、视频、及音频的内容分析和检索。我们组的学术领头人是张宏江博士,多媒体分析的先驱之一。由于我还具有一些信号处理和语音处理的背景,而且对音频信号颇感兴趣,于是音频和音乐内容分析及检索便成为我的主要研究方向。

在另一个研究员江灏的工作基础上,我开展了音频分类分割的工作。其主要目标是将一个音频片断(比如影片中的音轨),按照其内容分为语音、音乐、背景声音等等。这是音频分析的第一步。这个项目帮助我很快地熟悉了机器学习和模式识别的算法。

好玩的哼唱搜索

经过一段时间的学习和工作,我逐渐熟悉了研究的方法论。哼唱搜索(query…by…humming)便成为我第一个独立研究项目。在传统的搜索引擎中,大家都习惯于用文本或关键字去搜索歌曲,比如用歌手或者歌名。但是在很多情况下,你有可能忘记了或者根本不知道一首歌的歌手和歌名。那么,还有什么办法把那首歌找出来呢?哼唱搜索便提供了另外一种搜索方式:哼一段旋律,通过旋律匹配把歌找出来。

这个项目的起因其实就是张宏江的一个问话:“能不能简单哼一下就把一首歌给找出来?”“ 挺好玩。”当时第一个感觉就是这个问题很好玩。仔细一想,其实这也是一个现实的问题。比如说我自己(不少人也是)经常记不清歌名,但还能哼两句主旋律。如果我们真能有一个哼唱搜歌的系统,说不定真可能派上用场。同时,这还是一个独立、完整的系统,设计开发这样一个系统对我也是一个有益的锻炼。于是,我和一个实习生由红开始了这个项目。

我们首先翻阅了资料,发现哼唱搜索其实在1995年的ACM多媒体大会上就由Asif Ghias博士(康奈尔大学)等提出并给出了一个解决方法。以后又有些研究员陆续提出了一些改进方法。但是,我们发现以前的方法还是有不少的局限性。比如,旋律本来是一个音符序列,包括每个音符的音高和时长;但在很多方法中,旋律被简化为只包含反映下一个音符相对于上个音符上升、持平、下降的字符串。有些方法为了加快搜索速度,要求只能哼唱歌曲的起始部分。还有些则为了避免哼唱节奏的影响,要求用户使用一个节拍器。这都限制了这些方法的可应用性。我们觉得里面还有许多方面可以提高。

我们把系统分成了三个部分:数据库处理(从音乐中提取旋律),哼唱处理(从哼唱中提取旋律)和旋律匹配。其中的关键问题是旋律表征、旋律提取、和旋律匹配算法。鉴于以前对旋律表征过于简化,除了以前使用的上升下降等量化数据,我们还保持了旋律中每个音符的音高和时长作为更精确的表征。在旋律匹配过程中,我们采用了两步法以加快搜索速度:先用简化旋律作一初选,然后再用音高和时长,通过音高匹配模型和节奏匹配模型,来更精确地寻找相似的音乐。

歌曲大搜索之哼哼也可以 芦烈(2)

经过半年时间的努力,我们终于完成了算法,建立了一个演示系统。算法在测试集上的性能也挺不错:在搜索结果中,前五位内能找到正确歌曲的比率(hit rate)达到了80%。然而,虽然算法取得了不错的结果,回想起来,还是有不少地方可以提高。比如我们所用的开发集及测试集都比较小,这样可能并不能完全反映算法的性能。我们还发现我们在分析哼唱数据将其转化为旋律时,使用了不少启发式规则,一些参数的设置过于局限于开发集而失去了通用性,使得这个系统对某些人工作很好,但对另一些人却不好。而且,要成为一个真正能为大众使用的产品,我们还缺少一个关键触发点:一个好的应用场景。对于最重要的一个应用场景——网络音乐的搜索,哼唱搜索还无法胜任。这是因为目前的算法对 mp3等音频数据还无法有效处理来提取旋律,我们使用的数据库主要基于MIDI 数据。但是不管怎样,这是一个完全从零开始的项目,我在整个过程中,从查阅资料、设计模块、设计算法,到编写代码、数据收集、算法评价及相应改进,都得到了不少的锻炼,对研究方法也更有心得了。

由于其他项目的开展,哼唱搜索暂时告一段落。我想,其实它也是在等待一个更好的机会。

忽现转机

几年后(2006夏)的某一天,搜索技术中心(STC)的开发项目主管谢育涛突然跟我联系,说他正好看到张贴在研究院中有关哼唱搜索的海报,要跟我讨论一下将其用在手机搜索上的可行性。谢育涛主要负责的是手机搜索,那时他正在跟位于深圳的Windows Live Mobile China (WLMC) 做图铃搜索,也就是提供高效算法来搜索手机图片和手机铃声。除了传统的文本搜索之外,他们还在寻求一些与其他搜索产品不同的新功能。哼唱搜索可能是一个好的选择。

为了寻求哼唱搜索手机铃声的可行性,我们同相关的同事进行了多次讨论。最后,我们觉得哼唱搜索和手机铃声下载将是一个完美的结合:

首先,手机铃声的下载是一个相当大的市场。有资料显示2005年全球手机铃声业务达到令人惊讶的50亿美元。

第二,手机作为一个便携式手提设备,用键盘输入文本并不太方便。但是,声音对手机来说却是一个非常自然的输入方式,因为手机本身便是用来做声音交流的。哼唱是声音的一种。

第三,手机铃声通常有多个版本以便用于不同的手机型号,而MIDI版本的手机铃声是最基本的。这样,只要将MIDI同其他格式关联起来,旋律提取便不再是个问题。

第四,通过手机下载手机铃声是个一步式的解决方案。不再需要通过电脑等中介系统。

同时,我们也发现在这个应用场景下,直接使用我们以前的方法效果并不理想。新的问题带来了新的挑战:

第一,在以前系统中,哼唱是通过麦克风录制的,质量比较好。在现在的应用场景下,我们需要用手机录制。同时,我们必须还要考虑到录制时引入的背景噪声(用户可能在大街上使用这个系统),还有由于无线传输而可能引起的信号畸变。

第二,我们将要面对一个大的多的数据库(通常手机铃声库可能包含1…10万首铃声)。这就要求我们更进一步的提高搜索精度和速度。利用一切可以使用的信息,优化旋律模型和节奏模型。同时需要建立一个更大的开发集和测试集,来优化参数选择和性能评价。

当时,由于媒体计算组的重组,我加入了语音组继续从事音频分析和检索的工作。语音组研究项目负责人Frank Seide和语音组带头人宋謌平博士也非常支持这个项目。于是我们?

红尘不寂寞  星河战铠  穿越冷宫:倾尽娇柔  相公 从了本帅吧  无名的裘德  灌篮高手之王者海南  琅嬛府主 完  古灵精探同人之荣华富贵  戊戌变法的另面  中国保镖  嫡长孙  千年冥判  安息日  我的老公是鬼物  孙子兵法说什么  无垠进化  隐龙啸天  妖行大唐  移世寻爱(穿越时空,女变男,生子)  家庭百事通09年第二期  

热门小说推荐
兵王传说

兵王传说

一场人质救援行动中,因为救援失败而一蹶不振的龙牙队员张正选择退役归隐,此后国家神秘的龙牙小组真正意义上失去了最尖锐的兵器。几年后的张正再次出现势必要将这世界搅动得天翻地覆。...

大小姐的近身狂医

大小姐的近身狂医

左手生,右手死,他是阎罗在世!美人在怀,佳人在抱,他是情圣重生!一个初入都市的江湖少年,凭借逆天医术,从此纵横都市,逍遥花丛!...

村野小邪医

村野小邪医

段飞是个倒霉的孩子,老爹被人陷害入狱,又遭遇对象退婚,开间小诊所给村里的人治病,连温饱都不行。可他从未放弃过努力,他坚信只要人不死,必定有站在人生巅峰的那天,最后他用枚小小的银针走上复仇之路,凭精湛的针灸获得无数美女青睐陪伴。这是个励志故事,段飞的崛起之路经受无数阴谋陷害,可他为了坚守正义毫不畏惧,视死如归跟邪恶力量做斗争。...

飞剑问道

飞剑问道

在这个世界,有狐仙河神水怪大妖,也有求长生的修行者。修行者们,开法眼,可看妖魔鬼怪。炼一口飞剑,可千里杀敌。千里眼顺风耳,更可探查四方。秦府二公子‘秦云’,便是一位修行者...

无敌从满级属性开始

无敌从满级属性开始

穿越成修真世界的一个废柴,那还修你妹的真?一道七彩霞光之后,杨真直接吊炸天了!他看过的功法,直接满品满级,学都学不完!他炼制的丹药,不但起死回生,还能青春永驻!他锻造的武器,上打神王大帝,下捅黄泉幽狱,每一件都让天地颤栗,让神魔退避!我杨真从不装逼,因为我真牛的一批!一群542062672(已满)二群...

我的绝美御姐老婆

我的绝美御姐老婆

聚焦巅峰火爆畅销他是世界闻名的巅峰杀手,却被家族逼婚,与美女总裁住在了一起。彼此看不顺眼却又不得不同居,萧凡决定回学校散散心,可是...

每日热搜小说推荐