迅速攻占两座AI高地,这家公司诠释了什么是体验为王

业内皆知,作为人工智能领域发展最成熟,历史最悠远的分支之一,人脸识别有包括LFW 和MegaFace在内的诸多国际级别赛事,而微软在去年提出的 MS-Celeb-1M 基准测试则被誉为人脸识别年度“世界杯”。就在最近,最新一届“世界杯”落下帷幕,更像是对“中美两国AI发展并驾齐驱”的某种印证,一家名为猎户星空的中国人工智能公司,在其中一个重要竞赛项目中夺得头魁。

考虑到赛事的权威性,在不少行外人眼中——在人工智能疾风骤雨般渗透进大众生活之前,上述结果委实有些意外。值得一提的是,借助计算机视觉领域顶级会议ICCV 2017的平台,本届竞赛既包括大规模人脸识别竞赛(Hard Set 及 Random Set),还颇具新意地推出了更具挑战的小样本学习(Low-Shot Learning)竞赛,可谓近年来业内公认的含金量最高的同类赛事,这也自然招致全球各地人脸识别团队超强的“夺金”欲望,好在结果令人欣喜,至今不满一岁的猎户星空,获得了这项赛事识别子命题有限制类(只使用竞赛提供数据)第一名。

事实上,最近一周,这家初创企业出了不止一次风头。7月26日,传闻已久的小米AI音箱正式发布,后者采用360度远场语音控制,在提供在线内容的表层应用背后,这款音箱无疑承担了小米“智能家庭中枢”角色,是小米试图将整个生态链产品“连起来”的关键布局。而作为猎豹移动旗下人工智能子公司,猎户星空是小米AI音箱重要合作伙伴,为其提供了一套可以用“这个星球最温柔声音”回复用户的语音交互系统。

将时间轴拨回一个月前,作为猎户星空 AI 生态链上的第一款产品,他们联合喜马拉雅同样发布了AI音箱“小雅”,其背后技术核心,同样是猎户星空全链路自研的远场语音交互系统——尽管踏上AI音箱“风口”的企业有先后之分,但当他们在寻觅语音交互这块最重要的长板时,猎户星空都是他们最值得仰仗的嫁接对象。

而倘若将人脸识别“世界杯”的夺魁与语音系统放在一起考量,不难发现这家创业公司的迅猛之势。要知道,至少在现阶段,人工智能大概可分为语音识别,图像识别,语言理解和机器人等应用技术,其中语音识别和图像识别是目前相对成熟的领域,普遍准确率都超过90%——这也意味着再想要持续精进的难度,猎户星空能在短时间内一举拿下了人工智能两座已经很高的高地,在创业公司中确实比较罕见。

不久前,《纽约时报》在采访大量美国政府官员和硅谷精英后就得出结论:中国的人工智能将与美国齐头并进,中国已经诞生孕育人工智能温润的社会土壤。如果将这家中国初创企业的“世界杯”夺魁,搁置在中美AI竞赛的宏大背景,仔细分析这家公司,就显得意义非凡。

技术过硬

先从微软的这次比赛谈起。

如前所述,猎户星空获得了这项赛事识别子命题有限制类(只使用竞赛提供数据)第一名。顾名思义,与更偏向于比拼数据的无限制类(无限制使用外部数据,数据越多训练模型当然越好)相比,有限制类别只能在限定的数据集内调用,是比较纯粹的算法比拼,因为在限定数据情况下想达到最高精度非常困难,难度也更大——当然,正是由于这种限制性,有限制类的算法比拼也相对公平。

公平也意味着高门槛。竞赛数据噪声大,无法直接拿来训练,而整个训练数据集也很大,适合人脸模型大规模训练的模型对资源的要求又高,很难做到又快又好。于是经过探讨,猎户星空团队设计了一种鲁棒的去噪算法,可针对各类不同程度的噪声数据进行有效去噪,同时选择采用适合大规模训练的 triplet 模型,通过一种颇为巧妙的设计在有限资源下加速了triplet网络的训练,大大提升了性能,最终获得 0.75/0.606(random set/hard set)的高分——这一成绩远超以往记录,几乎达到了不使用外部数据的极限。

事实上,尽管成立时间不长,但团队成员过往的技术积淀(官方介绍:猎户星空初创团队拥有来自硅谷,日本,中国台湾地区,北京和深圳等全球一流科技公司的技术精英,博士占比近5成),让他们创立初就开始投身人脸识别的探索。参赛“世界杯”前,他们就在另一项人脸识别国际赛事 LFW 上取得了前三名。值得一提的是,与在“世界杯”的获胜逻辑相近,LFW 上,与只追求精度的团队不同,猎户星空尝试用尽量小的网络,去追求尽量高的精度,令不少其他团队侧目。

而与不少初创团队醉心于“秀技术”不同,依托于猎豹移动强大的产品思维底座,猎户星空深知一点:将技术蜕变为产品,从来都是检验技术成熟的唯一标准。于是,猎户星空上述所有比赛技术,都不会被搁浅在学术报告或者比赛赛场上,而会被运用到在门禁,机器人和移动 APP 等具体产品。举个例子,目前人脸识别技术就被用于猎豹旗下的直播产品 Live.me 中,后者每天产生超过 20 万小时的直播内容,运用图像识别技术可以进行 24 小时的实时监控,极大提高违规内容的审核效率。

让人温柔以待的音箱

谈及技术落地,猎户星空让人工智能音箱做到“像人类一样沟通”,或许是更好的例子。

事实上,关于语音交互,猎户星空现已掌握麦克风阵列,语音唤醒,语音识别,语义理解和语音合成等全套远场语音技术,且各环节相互补充配合,大幅提升了交互体验。譬如以最关键的语音唤醒举例,基于猎户星空汉字整体建模的CNN唤醒技术,其语音交互系统可以实现高精度唤醒,达到了行业领先的误报水平,且解决了人声回应对识别的干扰——据悉,目前猎户星空的唤醒率达到了95%以上。

再比如,上个月问世的小雅是业内第一个真正做到人声回应的音箱。猎户星空采用大数据情感语音合成技术与汉语语音合成引入重音技术,提升了汉语语音合成自然度,重音层次分明,这让小雅音箱的声音,真的很像一位叫小雅的邻家女孩——这种在声音上的技术精进,即是一种典型的用户思维(而非工程师思维),也因如此,小雅音箱一经推出就获得了市场的回报,预售5万告罄。

一个月之后,猎户星空又将这种用户思维输送到了小米AI音箱——“小爱同学”身上。与小雅相似,由猎户星空提供的人声回应技术,可以让“小爱同学”被唤醒时,回答一声“诶”“我在”等回应;而猎户星空提供的另一个关键技术,语音合成,则让小米AI音箱被赋予“这个星球最温柔”的女声,这项技术可以使得任何一款AI音箱,用亲和平滑的声音曲线回复用户的任何需求。

可以想象,这些技术会让用户由衷地对机器温柔以待(盲测显示,相比同类产品,70%的用户很喜欢运用猎户星空技术产生的语音),并在“机器人成为家庭一份子”的必然之路上起到助推的作用。

体验为王

说到音箱,当前中国智能音箱市场杂乱到近乎失序。

据说前段时间,喜马拉雅副总裁李海波在深圳南山区转了一圈,发现1公里内盘踞着112家做语音智能产品的公司,他走访了其中4家,发现他们无比痛苦:他们无一不在拼模组和方案,却几乎没什么用户;他们知道风口离自己很近,却总是困在原地。

事实上,新技术的来临总让人欢喜,但却有一样东西决定了新技术是夭折还是迅速普及——用户体验。

如上所述,与单纯秀肌肉的人工智能公司不同,猎户星空的最大优势源于它是一家拥有互联网思维的AI公司。它由一群重视产品体验的工程师和尊重技术的产品经理共同组成,这足以造就与大多数语音和人脸识别公司的云泥之别。

举个例子,傅盛曾提到过一个细节:猎户星空把喜马拉雅的内容和音乐曲库,以及各个合作伙伴的音乐曲库,不仅集成在了一起,还做了服务端细节上的优化,譬如标题,音频,歌词和节目的优化,都打印上了喜马拉雅独特的标签,让这些内容更加口语化,最大程度完善用户体验。

嗯,相较于散落在不同技术精英头脑中的需求构想,将AI以最快速度变成体验良好的产品,无疑更为关键,而猎户星空无疑深谙此道。

其实人工智能与当年的电力革命有诸多相似之处:譬如,它们本身都不是一个“行业”,AI的机会在于和应用结合,而不是单纯的技术输出;其次,就像普通人不会关心爱迪生与特斯拉的直流交流电之争,他们只想要更好的“结果”,人工智能亦如此,最后拼的其实是产品,就像傅盛所言:“深度学习的核心是数据驱动,虽然有模型调参,有自己的优势,但别人有更多的数据调参很快拉平优势,很难真的想像一家公司通过提供技术输出就能成功。我甚至认为未来深度学习是基础的技术运用,很多公司都具备深度学习的研发能力。”

所以,无论是技术本身,还是让技术落地的用户体验,今天的猎户星空都已展示出了“与年龄不符的成熟”,而这二者的结合,无疑让他们的未来值得期待。

李北辰/文(知名科技自媒体,致力于用文字优雅的文章,为您提供谈资与见识)

发表评论

电子邮件地址不会被公开。 必填项已用*标注