Robin.ly 是一个全新的视频内容平台,旨在为广大工程师和研究人员提高对商业,创业,投资,领导力的理解。本期是Robin.ly创始人Alex Ren采访流利说硅谷AI实验室负责人刘扬博士。
以下为采访实录摘要:
Alex: 大家好,我是 Alex ,是 BoomingStar Ventures 的管理合伙人,也是 Robin.ly 的创始人。 Robin.ly 是一个视频内容平台 , 主要目的是为了提高工程师和研究人员对于 AI , 创业以及 leadership 方面的理解。我们邀请了很多AI方面的科学家,知名创业者,投资人,以及一些业内leader,来分享他们在这些领域的心得。今天的嘉宾是流利说硅谷AI Lab的负责人,刘扬教授,她将分享在自然语言处理 以及 conversational AI方面的体会 。 刘教授在AI和自然语言处理 领域有超过20年的经验,获清华大学本科和硕士学位,后又就读于普渡大学并取得博士学位,并在2011年获得了UT Dallas的终身教授职位。她曾获得NSF Career Award 以及Air Force Young Investigator Award等荣誉,并任Google Visiting Scientist及Facebook Research Scientist等职位。2017年,刘教授加入了流利说,担任AI Lab负责人——流利说在2018年9月底成功在纽交所上市。刘教授在普渡读PhD时候的论文是关于语音识别 , speech recognition,后在ICSI以及UT Dallas都选择了自然语言处理 方向,考虑到当时深度学习 和AI并非热门领域,能否介绍下您选择这个方向的初衷?
刘扬:其实我对这个领域的关注,不是从读博士时候开始而是在清华读本科的时候就开始了。1996年在做本科毕业论文时的主题就是中文的自动分词。中文是一个一个的字,并没有词的这个概念。但是无论做 语音识别 还是 自然语言理解 ,都需要以词作单位,所以当时本科毕业论文做的就是中文自动分词。当时用的最简单的方法就是从左到右,找一个在字典中可以匹配出来的最长的词,或者再加一些 统计模型 ,用一些HMM/隐藏 马尔可夫模型 ,或其他的一些办法来完成。当时主要是为了 语音识别 ,因为 语音识别 需要language model。从1996年开始,到现在我已经做了20年了。当时在中国从本科一直读到研究生,选择的余地有限。比如,考上清华,在电子系,我们班就是做信息这方面的科学研究,跟 模式识别 和AI的关系很紧密。当时我所在的组的实验室主要也是做 语音识别 。所以从本科毕业论文开始,做分词也好,做 语音识别 也好,以后就很自然的继续做下去。那时候不像现在的本科生,exposed的东西特别多,想想自己对什么东西有兴趣。我们那时候往往是被老师带上了这么一个项目,后 来也 确实觉得是挺有兴趣,就坚持下来了。
Alex: 坚持下来的原因是觉得课题本身有意思?
刘扬:是的。因为人的语言每天都在用,有很多有趣的现象。举两个例子,比如像我们现在常常用的叫code switching,就是中文和英文夹在一块儿,现在很多双语者都有这个问题,无论做 语音识别 还是做 自然语言理解 时都需要处理的一个问题。 平常因为在语言中有挺多类似的有趣现象,做这个研究课题就觉得有很多事情可以做。再举个例子,我的博士论文是做conversational speech,spontaneous speech,人们常常说了一个词,又回去再改一个词,或者再重复一个词,这是一种挺常见的现象,或者有不连贯的这种语句,在 语音识别 中也是一个挺大的问题,我的 博士论文就研究这个问题。后 来也 做过处理小孩子的语言现象,或者是有各种语言问题的语言现象,非常有趣。虽然当时这并不是一个热门方向,但无心插柳,这么多年坚持下来,这个领域在过去几年成为了很流行的话题,应该说我的选择不是特别错误:至少见到自己做的东西,或者落地,或者研究领域,都有一个很大的成就。
Alex: 您是什么时候开始接触深度学习 并且把深度学习 应用到NLP上面的?
刘扬:我对 深度学习 的接触历程跟整个领域发展阶段大致重合。从2010,2011年开始,Microsoft或者Geoffrey Hinton这些人开始涉猎这一领域。在 语音识别 中,MSR的 语音识别 是一个方向。另外还有computer vision那边也见到了很大的一个成就,那时候我还在学校,有点跟着潮流,看到在其他领域都有挺大的发展,就慢慢地把很多原来用传统machine learning做的事情换成用 深度学习 , 神经网络 来做。当时学校里有一个有趣的现象,学生们因为顺着这个研究的潮流,把原来的东西拿过来用 深度学习 再做一遍。毕业论文答辩的时候,其他的答辩组成员最常问的问题就是:用这个方法做,在科学方面有什么样的贡献,有什么样的发现,仅仅是因为 神经网络 流行所以跟风,还是确实解决了一个实实在在的问题?所以当时很多学生都面临这样一个问题,既想从研究方面确实对这个问题有深入的理解,但又想跟上整个大的学术界或者工业界所有人的脚步,想赶上这班车。
Alex: 深度学习 很多是drawbox的方法,很难去追究它的成本?
刘扬:对,或者说对这个问题的理解。大家现在都强调这个模型的interpretability,你到底有什么样的解释。即使是Google,比如说search这个问题,要不要用 深度学习 最后去做这个ranking?系统有时候需要解释,一个query处理得好或者处理得不好,要如何去修改。
Alex:2015 年 , 您从学校去 Google 做了 visiting scientist , 当时是出于什么样的考虑 ? 想去看一下工业界在发生什么吗 ? 后来您又去了 Faceboo k , 以及现在的流利说 , 您的心路历程是什么 ? 工业界和学术界有什么区别 ?
刘扬:现在回头看,好像从学术界到工业界挺自然,很多教授可能也都是走这么一条路。但当时对我来说主要是一个个人的原因。好多认识我的人都知道,我先生早先在硅谷工作,当时思考这个问题怎么解决。 最后决定利用sabbatical leave的机会,到硅谷这边的工业界试试水,所以去Google是挺自然的一个选择。选择Google的原因是,他们对学校sabbatical leave有一个非常成熟的process的系统,所以可以正常申请,到Google找一个researcher一块儿合作一个project。像Apple,Facebook之类的公司,这方面和Google比起来的话,sabbatical leave流程还不是特别成熟 。
Alex: 您当时主要研究的课题是什么?
刘扬:当时做的还是NLP。最开始是想做跟information extraction比较像的方向,怎么检测文章中发生的事情,有哪些重要的人。去了之后有一些变化,也做了一些跟别的方面的理解相关的内容,但大部分依然用 深度学习 解决NLP的问题。工业界的research,一方面跟学术界有些像,确实要找一些research的问题,用先进一点的方法去尝试,即使他们在基础框架上比学校有很多好处,但另一个大的差别是在对研究问题的评估上要考虑产品的影响力。 因为毕竟是在产业界,不像在学校在实验室中就可以找一个研究的问题,有可能会解决世界上一些先进的研究上的问题,当然也有可能没有任何实际用处。在工业界进行的研究往往是由实际问题引起的研究,或者他们希望现在做的这些东西将来对公司,对产品,或者对其他现实问题起到很大的影响。
Alex: 您在 Facebook 主要负责什么方面的工作 ?
刘扬:当时去Facebook也考虑了一下究竟应该加入哪个组。 FacebooK研究方面比较红火的就是FAIR,FacebookAI Research。另一方面是Applied Machine Learning ,还有就是Facebook其他的产品组,包括Facebook的ads,NewsFeed,search等。因为在Google做研究的经历,感觉去Facebook的FAIR听起来像是挺自然的一个选择。但当时我认为自己已经在学术界呆了很久,在Google也见过科研,去Facebook继续做这种纯的基础科研没有什么改变,但如果直接进入一个全产品的组变化也有点剧烈。后来找了折中的点就是Applied Machine Learning ,把一些大家可以用的 深度学习 或者是泛泛的 机器学习 用到Facebook的产品中。当时看到了很多把各种各样的machine learning应用到在Facebook的ads ranking,feed ranking等产品中,以这样的方式实现了AI落地的应用。
Alex: 您进一步加入流利说的时候,是因为本身的教育背景所以选择了流利说的英语教学这个方向么?出于哪些考虑?
刘扬:有好几点原因。一方面,我相当于是做教育出身,虽然教育跟我们现在做的教育不太一样,但是从情怀讲起来这个还是相关的。另外一方面,是因为跟现在这个公司的创始人原本认识,对这个公司和这个行业比较关注。最后就是因为跟自己这么多年做的 语音识别 和 自然语言理解 相关,语言学习是这些研究的一个自然的落地方向。很多业内人士都是在考虑如何将AI和 机器学习 进行具体应用,第一个能想到的就是教语言,学语言,所以这是特别自然的一个应用。
Alex: 有一个产品叫“雅思流利说”,应该也是你们的一个主打的收费产品。像这种国际型的人语标准化水平测试,最大的问题就是如何保证打分的准确性,您觉得你们在这方面有什么技术优势?
刘扬:这其实是一个挺复杂的技术问题。 如果大家参加过托福或者雅思考试就知道,口语考试是给一道题,要求应试者讲半分钟或者一分钟来回答,比如说对动物园有什么看法,对现在的一些政治问题有什么样的看法,一般是有一些agree或者disagree这样明显的性质。或者托福的考官要对这个人说的话进行打分。这个过程是用语言/speech回答了问题,如果要对他/她打分,首先要求这个系统能够做 语音识别 ,我先要知道都讲了什么,所以 语言识别 是第一步。然后有了 语言识别 的结果之后,要对学生说的内容进行打分,进行理解。这个里边要考虑的就是他/她的词汇怎么样,语法怎么样,句与句之间的连贯性怎么样,整个篇章/段落的观点表达得合理不合理。所以整个系统看,从 语音识别 一直到 自然语言处理 里面包括的点就非常多--从词汇到特别highlevel的段落--篇章都要考虑。就连第一个问题 语言识别 ,也不简单。不仅有中国人的口音还因为这是一个即兴的演讲过程。 会涉及到讲话时候的改正,比如一个词说到一半又把这个句子从头开始说了一遍,这对于 语言识别 来说都是特别特别难的问题。另外中国人讲英语,有各种语法问题,用词不合适的问题。对于声学模型, 语言模型 来说都特别困难。所以第一步 语言识别 就已经不容易了,识别出来的这些话可能有很多错误已经包括在里面了。第二步再做自然语音处理的时候要看语法错误,用词错误,连贯性等,依然是很难的问题。当然,这些所有的问题现在都用 机器学习 做过,其中一些component是用的 深度学习 ,有一些就是传统的machine learning。
最后回到系统打分,雅思考试得了5分,6分还是7分,能跟考官打的分之间的correlation应特别高。这需要通过 机器学习 的一些方法实现——如果机器已经见过若干人的雅思或者托福口语考试分数,我又见过一些考官打的分,就可以学习什么样的分能跟人打的分相似。所以也相当于是machine learning。我们现在这个系统欧洲或者雅思的官方很认可,打分确实跟考官基本一致,所以现在“雅思流利说”的产品,有很多人用它去练习,希望花一两个月的时间把自己的考试成绩从5分提到6分,从6分提到7分。
Alex: 目前 市场上语言学习的产品较多,很多公司声称自己有AI技术,你们在技术上希望怎么保持优势?
刘扬: 希望把AI应用到公司产品的各个components上,我们要保持在 语音识别 技术上最领先的地位, 在NLP各个方面同时要保持领先技术,这只是从纯技术这看。要保证公司整个产品都处于领先,除了技术还包括其他,可能比技术占的比例更大的,比如公司产品内容,整个UI design,要使学生能够更喜欢这个产品的要素。刚才提到了一个技术优势,像我刚才说的,识别中国人的语音不是那么容易,中国人的发音,标准音 “I”,可能被不同的人讲出来,有南方口音有北方口音,但都不是英语中所谓的标准音。原来在做传统的 语音识别 的时候,有声学模型,有 语言模型 ,还有一个叫词典/字典。这个东西要告诉我们这里有一个词,它的发音是什么,这个Robin是要念成r-o-bin这个音吗?但是对中国人来讲,这个音可能念得不是那么准,我如果想用一个字典来把中国人可能读的音都表示出来,不是那么容易的一件事。
在 深度学习 中无论做 语音识别 还是做NLP,都有一个端到端的学习,End-to-end的体系。这个系统里 没有我们刚才说的声学模型, 语言模型 ,和词典,基本就是一个系统把所有需要包括的东西都包括其中。我们现在也在做这方面的研究,中国人可能读这个音会有3种,5种,10种不同的读音。如果一个End-to-end system能够自动学习中国人发英语这个词的发音,它的这个声学模型依次去建模,就是比较理想的一个状态。我们前几天刚刚提交了iCAST的一个论文,同时放在了Arxiv上,表明这个方面的尝试很成功。现在初步的结果跟传统的结果差不多。但是因为系统简化很多,在public的一个English的dataset中,我们的结果基本上是全世界最好的。所以公司在整个AI,从语音到语言,各个方面都还是想保持技术上的领先性 。
Alex: 您认为教育希望实现全面的因材施教,那这里边最大的技术难题是什么?您刚才提到了语音识别 ,除此之外是不是还有一些数据采集,产品定位,UI/UX,或者说另外一些非技术困难?你们现在最关心的问题或者说最大的难题有哪些?
刘扬:做 “AI+教育” 这个领域,进行personalization是特别重要的一个课题。就像因材施教,这个是在传统的教室中无法实现的,因为一个老师要教30个人,100个人。现在因为每个人都有一个app,希望每个人都可以针对自己的情况去学习。这中间的难点不是AI的难点,是想怎么把用户各个方面的行为给model出来,才能够真正去因材施教。并非只是语音语法这些知识的掌握,更多是行为层面。比如有些人需要老师天天督促学习,另一些人需要老师去鼓励,还有些人是需要老师批评,所以我说的是这方面针对用户的model,或者建模,使得确实能做到personalization。比如,做题容易放弃,或者是需要什么激励才能继续学习下去。我要做 强化学习 ,就要把这个人的所有data point都考虑,最后看怎么用最合适的reward去使teaching更有效,这些都是现在还在尝试中。
刘扬现场讲述流利说技术难题
Alex: 数据采集本来就是个难题了——
刘扬:对,要考虑究竟哪些data point最合适。
Alex: 用类似测评的 方法吗?
刘扬:对,测评是一方面。但是很多东西不是通过一个简单的测评就知道做错题目背后的原因 。究竟只是有一个语法没掌握,一个单词发音不正确,还是有其他各方面的原因,那些东西可能是我所说的技术上面的难度——但不是AI这方面的技术。另一个非技术方面的难题是教育本身,如果这是一个做游戏的公司,客户黏性会很高,今天用了这个产品,明天还继续用; 但是教育不是。不是人人都能留在app上,天天都去学习。像刚才提到的雅思考试,也许下个月要考雅思或者再过两个月或一年出国,在这个特别明确的目标下,可能就会去用产品。但只是为了提高自身水平,想学点英语,没有明确目标,就很难让每个人都特别有engagement留在app上,使得他/她每天去学习。公司现在做的一些事情,就是企图做一些social方面的东西使得产品与用户的粘合性更好,或者做一些其他方面的尝试——我们有督学,促学性质的老师天天提醒你,或者建一个群,使得大家能够更motivated的去学习。但究竟怎么是最有效的方式,还需要摸索。
Alex: 记得微软亚院的副院长周明 讲过,在认知和语言处理方面,一个很大的因素是不像感知 ——它还需要一些UI/UX的配合。一个产品UI/UX做得好,用户更愿意engage,才能搜集到更多数据,做更好的模型。您从技术到产品过渡的过程中遇到过类似的问题,怎么能够让您的好技术跟产品很好的嫁接在一起?
刘扬:这属于很多不是做纯技术的人可以解决得比较好的一个问题。比如说AI core的技术在里面,但是需要把它给包装成用户都喜欢用的产品,里面就需要很多像UI/UX或者内容的东西。即使能够识别语言,能够知道语法错误,但怎么把它变成一个每个人都特别适合用的产品——就需要结合合适的内容,还有产品各方面的这几。我们这边有两个人是做内容,每天在考虑怎么去教用户,即使是同样的语法点或者说一个词,要用什么样方式教给用户。这里面有一些动画的设计,有一些内容/topic方面的设计,整体属于大的产品设计。
Alex: 有人把自然语言处理 的问题分成了五类 , 比如 classification , matching , translation , structure prediction , 以及 sequential decision process 。 深度学习 现在用在这些领域都取得了很大的进展对,但是还不完美的地方。您认为深度学习 在这五个领域都进行到了什么地步了?还有什么问题是比较难的问题?
刘扬:五个问题中最难的是最后一个问题 。classification是人们比较容易理解的问题。比如一段文字,像做classification的这个class可以根据不同的场景去做。有的人是关心,这个人对这篇review(的评价)是正面还是负面,就是评价归类;也可能是做主题归类,一个新闻,识别出是政治,鱼类还是金融或者其他,就是主题归类。这是standard machine learning的问题,传统上有各种各样的machine learning的分类器,从以前特别流行的SVM到 最大熵模型 ,在NLP上面都比较有效。现在用 深度学习 跟原来的方法没有实质性的变化,但是因为现在的方法简化了很多,原来传统的分类器往往是需要有人去设计feature——
Alex: Feature Engineering
刘扬 :对,这方面的工作特别多。如果要做positive/negative sentiment analysis,就要设计个词是正面或负面,要找一些feature。如果做topic,要去做跟这个相关的feature engineering。现在的 深度学习 就是embedding进去,模型自然就学到了, 神经网络 里面每一层都展示了不同的东西,最重要的就是系统简化了。NLP不像speech recognization或者computer vision的改进特别大。 深度学习 在NLP上面没有翻天覆地的变化。
Alex: 最早的深度学习 是用在语言 /speech 上面的 ?
刘扬 :对,用在speech上面,我指的NLP是传统的textbased的NLP。当然也可能问题是,text本来就是一个个符号化这个token,但演讲或者视觉本身有连续性的特征, 深度学习 也许更适合。除了classification,还有一个是sequential。一句话,要把这里面我想要找出的东西找出来,一个问题就information extraction,或者named-entity recognition。一句话我要找出来,这里面有一个实体是表示姓名,可能是人名,还有一个表示餐厅,地点的名字,可以把它算成是sequence labeling 。一串的sequence其中有几个是想找的有趣或者关注的 。传统上的模型叫HMM,或者CNF,现在都用 深度学习 取代了,就是RNN, LSTM 这些性质的模型,表现很好。对刚才说的classification的问题,也是省了很多feature engineering的问题。翻译是第三类问题,现在基本上已经代替了传统翻译用的phrase-based translation的系统,基本上现在Facebook, Google,Microsoft等所有的公司都在用不同的 深度学习 ,大家在框架上是稍微有一点点差别,但都是基于 深度学习 的翻译体系。这是业界公认有效的一个体系。最后的一个问题就是sequential decision process,不管是 深度学习 还是传统的machine learning都还没有解决这个问题。每天跟Siri或者Alexa讲话都是multi-term conversation,我们往往说几句话就意识到,这个系统完全不行。一句话,有时候它还能回答。一句话如果让它做classification,它知道问的是哪一个问题——要找一个人还是问一个地点,这是简单的可以回到份内的问题,或者回到matching的问题——在一个很大的 数据库 中可以找到类似的答案,但是如果需要建模个人的对话,从第一句话到第二句话,到第三句话,还有你我分别说了什么,这个整体的谈话历史的构建,暂时还没有特别好的解决方法。
Alex: 您未来三五年的工作方向是什么?
刘扬:像我刚才说的,公司还是想做AI在教育方面的应用。短期来看还是语言学习,将来这个教育能够扩展到哪些领域,现在还不是特别确定。但即使从语言学习这个方面已经很多事情需要做,把AI做好,从 语言识别 到 自然语言理解 。 自然语言理解 包括方方面面,从词到语法,到语义,再加上对整个世界各种common sense的knowledge都要model,使老师能够有效的去教学生。加上刚才提及的,要对学生各种各样的行为建模,使他们能更好的personalized learning。在未来一到三年,要做中国人的语言,也可能包括其他语言,对不同年龄层——成人,儿童的英语——进行建模,不是件特别容易的事情。
Alex: 今天听了刘教授对自然语言处理 技术的一些分析,以及她对于流利说如何把技术利用在教育领域的感想,受益匪浅 。同时也了解到刘教授从一个顶尖科研人员到涉足产品技术,帮助AI应用,以及成为工程师的职业转变。希望对大家有所启发。谢谢刘教授!
刘扬:谢谢!
Robinly团队坐标硅谷,从创业、领导力和人工智能三个角度去剖析成功创业者、高科技领导者、人工智能科学家和知名投资人的职业养成过程和他们对于这些领域的观点,我们力求追本溯源,为广大工程师、研究者提供一手的职业学习内容。
http://www.robin.ly