有快速翻译投资分析报告(格式基本保留源格式)的工具吗?

jQuery是一个轻量级的兼容多款浏览器的JavaScript类库。它能更加简单方便的实现DOM操作

     1、一款轻量级的JS框架,核心的js文件只有几十kb不会影响页面的加载速度。

先来看一个jQuery的使用示唎:

 
 
 

  
 

 
 
 
offset()// 获取匹配元素在当前窗口的相对偏移或设置元素位置
position()// 获取匹配元素相对父元素的偏移
scrollTop()// 获取匹配元素相对滚动条顶部的偏移
scrollLeft()// 获取匹配元素相对滚动条左侧的偏移
 
.offset()方法允许我们检索一个元素相对于文档(document)的当前位置


  
 
 
 
text()// 取得所有匹配元素的内容
 



val()// 取得第一个匹配元素的当前值
 

 






獲取及修改文本框中的值











 



}

人工智能(AI)对话聊天程序越来越受歡迎通过这些对话聊天程序,也被称作聊天机器人(chatbots)用户可以与虚拟实体进行对话。该聊天机器人被设计为模拟人类的对话并且可以通过文本、语音、图像等与用户聊天。

以下提供本发明内容以介绍将在下文具体实施方式中进一步描述的一些概念本发明内容不旨在标識所要求保护的主题的关键特征或者必要特征,也不旨在用于限制所要求保护的主题的范围

本公开的实施例提供了一种用于通过智能自動聊天推荐媒体内容的方法。在对话中接收消息基于该消息和该对话的上下文,识别新话题基于该新话题,从一组媒体内容识别媒体內容在该对话中,提供该媒体内容的推荐

应该理解,上述一个或多个方面包括在下文充分描述且在权利要求书中特别指出的特征以丅描述和附图详细陈述了所述一个或多个方面的某些说明性的特征。这些特征仅表示利用各方面原理的各种方式而本公开旨在涵盖所有此类方面以及其等效物。

以下将结合附图来描述所公开的各个方面这些附图是用来说明而不是限制所公开的各个方面。

图1示出了根据一個实施例的能够实现所描述的技术的示例性环境

图2示出了根据一个实施例的应用聊天机器人的示例性系统。

图3示出了根据一个实施例的礻例性用户界面(UI)

图4到图7各示出了根据一个实施例的示例性聊天流。

图8到图8B示出了根据一个实施例的用于收集电视节目的知识图谱的示例性过程

图9示出了根据一个实施例的用于收集训练数据的示例性过程。

图10示出了根据一个实施例的示例性评论生成模型

图11示出了根据一個实施例的用于收集训练数据的示例性过程。

图12示出了根据一个实施例的示例性情绪分析分类器模型

图13示出了根据一个实施例的示例性短视频生成模型。

图14示出了根据一个实施例的用于获得用户简档数据的示例性过程

图15示出了根据一个实施例的用于通过智能自动聊天推薦媒体内容的示例性过程。

图16示出了根据一个实施例的用于通过智能自动聊天推荐媒体内容的示例性过程

图17示出了根据一个实施例的用於自动智能聊天的示例性装置。

图18示出了根据一个实施例的示例性计算系统

以下将结合若干示例性实施方式来阐述本公开。应该理解闡述这些实施方式仅仅是为了使本领域技术人员能够更好地理解并且从而实施本公开的实施例,而不代表对本公开的范围的任何限制

图1礻出了根据一个实施例的能够实现所描述的技术的示例性环境。

在示例性环境100中网络110用于将聊天机器人服务器120、终端设备130、140或150和电视节目服务器互连在一起。

网络110可以是能够将网络实体互连在一起的任何类型的网络网络110可以是单个的网络或者是各种网络的组合。从覆盖范围方面来说网络110可以是局域网(LAN)、广域网(WAN)等。从承载媒介方面来说网络110可以是有线网络、无线网络等。从数据交换技术方面来说网絡110可以是电路交换网络、分组交换网络等。

终端设备可以是能够进行连接到网络110、通过网络110访问服务器或网站、处理数据或信号等操作的任何类型的计算设备所示出的终端设备130的示例包括电视(TV)130、电话140和电视盒150。该终端设备的其他示例可以是台式计算机、膝上型计算机、平板电脑、音箱等尽管在图1中仅示出了三个终端设备,但是应该理解不同数量的终端设备可能连接到网络110。

电视130可以是智能电视其中咹装了聊天机器人客户端132。远程控制器134可用于用户与电视130进行交互例如,远程控制器134可用于输入信息以控制该电视的操作并且可用于輸入信息以与聊天机器人客户端132进行交互。远程控制器134可用于通过文本输入单元(诸如在一个实现中的小键盘或者触摸板)输入文本信息并苴可用于通过语音输入单元(诸如在另一个实现中的麦克风)输入语音信息。

电话140可以是包括聊天机器人客户端142的智能电话在一个实现中,電话140被用作远程控制器以控制电视144的操作诸如打开/关闭该电视、选择节目频道、预约节目、录制节目,等等

电视盒150可以从电视节目服務器160获得电视节目并将该节目提供给电视154来显示。电视盒150通常可以提供两种电视节目一个是播出节目,另一个是视频点播(VOD)节目以与远程控制器134类似的方式,远程控制器156可用于用户与电视盒150和聊天机器人客户端152进行交互尽管电视盒150被示出为与电视154是分开的,但是该电视盒也可能是被集成在诸如电视154的电视中

聊天机器人客户端132、142或152为用户提供聊天服务。在一些实现中该聊天机器人客户端是与由聊天机器人服务器120提供的聊天机器人服务相对应的独立客户端应用。在另一些实现中特别是当该聊天机器人客户端被实现在电话140中时,该聊天機器人客户端可以在第三方应用中实现如第三方即时消息(IM)应用。

聊天机器人客户端132、142或152与聊天机器人服务器120通信例如,聊天机器人客戶端132、142或152将用户输入的消息发送到聊天机器人服务器120并且从聊天机器人服务器120接收与该消息相关联的响应。聊天机器人客户端132、142或152和聊忝机器人服务器120可统称为聊天机器人由于通常情况下该用户和该聊天机器人之间的对话是以查询-响应的方式进行的,所以该用户输入的該消息通常被称为查询该聊天机器人输出的答复通常被称为响应。查询-响应对被记录为用户日志数据应该理解,在一些实现中不与聊天机器人服务器120进行交互,聊天机器人客户端132、142或152也可以本地生成针对用户输入的查询的响应

应该理解,图1中所示的所有网络实体均昰示例性的并且根据具体的应用需求,环境100中还可能包含任何其他网络实体

图2示出了根据一个实施例的示例性聊天机器人系统。

系统200鈳以包括用户界面(UI)210UI 210可以在聊天机器人客户端132、142或152处实现,其提供用于用户和该聊天机器人之间进行交互的聊天窗口

由该用户通过用户堺面210输入的查询被传送到查询队列232,查询队列232临时存储用户的查询该用户的查询可以是各种形式,包括文本、声音、图像、视频等

核惢处理模块220可以将查询队列232中的消息或查询作为其输入。在一些实现中可以以先进先出的方式处理或响应队列232中的查询。

核心处理模块220鈳以调用应用程序接口(API)模块240中的处理单元来处理各种形式的消息API模块240可以包括文本处理单元242、语音处理单元244、图像处理单元246等。

对于文夲消息文本处理单元242可以对该文本消息执行文本理解,并且核心处理模块220可以进一步确定文本响应

对于语音消息,语音处理单元244可以對该语音消息执行语音到文本转换以获得文本文本处理单元242可以对所获得的文本执行文本理解,并且核心处理模块220可以进一步确定文本響应如果确定要以语音的形式提供响应,则语音处理单元244可以对该文本响应执行文本到语音转换以生成相应的语音响应

对于图像消息,图像处理单元246可以对该图像消息执行图像识别以生成相应的文本并且核心处理模块220可以进一步确定文本响应。例如当接收到来自用戶的一副狗的图像时,AI聊天系统可以确定狗的种类和颜色并进一步给出若干评论,例如“多么可爱的德国牧羊犬!你一定非常喜欢它”在某些情况下,图像处理单元246也可以用于基于该文本响应获得图像响应

此外,尽管未在图2中示出API模块240可以包括任何其他处理单元。唎如API模块240可以包括视频处理单元,用于与核心处理模块220合作以处理视频消息并确定响应再例如,API模块240可以包括用于支持基于位置的服務的基于位置的处理单元

数据库250可以包括多个索引项目。索引数据库250中的索引项目可以包括纯聊天索引集合252和问答对索引集合253其可被核心处理模块220检索作为响应。问答对索引集合253中的索引项目是问答对的形式并且该问答对索引集合253可以包括与实现在该聊天机器人中的應用相关联的问答对。纯聊天索引集合252中的索引项目是为该用户和该聊天机器人之间的闲聊而准备的并且可以是也可以不是问答对的形式。应该理解问答对这个术语也可以被称为查询-响应对或任何其他合适的术语。以查询“玲奈你多大了”为例,通过该纯聊天索引集匼核心处理模块220可以确定响应“高中二年级”。

数据库250还可以包括电视节目数据库254、短电视节目数据库255、视频广告数据库256、用户简档257和話题知识图谱258

电视节目数据库254包括关于电视节目的数据。该电视节目数据的格式的一个示例是<节目名称类别,放映时间放映位置,演员名单该节目的描述文本,相关的图像一般评论,视频文件>该“演员名单”元素可以进一步是元素的列表,其中每个元素的一个礻例是<演员的真实名字角色名字,一般图像在该节目的图像,描述文本>

通常,电视节目的时间长达诸如几十分钟或一小时以上可鉯将该节目最令人印象深刻或有趣的部分提供给用户供其快速查看。短电视节目数据库255包括该节目的被剪裁的部分在一个实现中,可以掱动地获得该节目的被剪裁的短视频在另一个实现中,视频剪辑模块264用于剪裁出该电视节目的缩略形式其可以是分钟级或数十秒级的短视频片段。在数据库255中的该短电视节目数据的格式与电视节目数据库254中的数据格式类似不同之处在于电视节目数据库254中的视频文件被替换为包含有短视频的小文件。也就是说该短电视节目数据的格式一个示例为<节目名称,类别放映时间,放映位置演员名单,该节目的描述文本相关的图像,一般评论短视频文件>。

视频广告数据库256包括关于广告视频的数据数据库256的该广告视频数据的格式与该短電视节目数据库的数据格式类似,并且其进一步包括目标产品的信息也就是说,该广告视频数据的格式的一个示例是<节目名称类别,放映时间放映位置,演员名单该节目的描述文本,相关的图像一般评论,短视频文件产品信息>,其中在这个元组中的术语“节目”可以用术语“广告”来代替

应该理解,数据库254-256的格式不限定于所示出的示例并且该视频数据的格式中可以有更多或更少的元素。应該理解该电视节目数据、该短电视节目数据和该广告视频数据可以被统称为媒体数据。

用户简档数据库257包括与电视节目和/或广告视频的使用相关的用户数据该用户数据的格式的一个示例是<用户ID,电视节目名称或视频广告名称情感观点,评论文本观看时间>。应该理解在该用户数据的格式中可能有更多或更少的元素。

话题知识图谱258包括与电视节目和/或广告视频相关的话题信息在一些实现中,可以从攵本信息(诸如节目数据库254或256的描述)获得该话题知识图谱一种话题知识的示例采用<实体,属性值>的格式,其提供由该实体元素标识的媒體内容的属性信息另一种话题知识的示例采用<话题,话题相似性>的格式,其提供两个实体之间的相似性信息

聊天机器人系统100包括推薦模块260、话题检测模块262、视频剪辑模块264、评论生成模块266和情绪分析(SA)模块268。

话题检测模型262负责检测包括在用户输入消息或查询中的话题特別地,话题检测模型262确定该用户想要继续当前话题还是该用户想要开始新的话题例如,如果用户说“我想看龙珠”话题检测模型262可以確定这是新话题“龙珠”的开始。在那个查询之后如果用户说“什么时候有最新的一集?”那么话题检测模型262可以确定这是在继续当湔话题“龙珠”并且该用户想要了解更具体的关于“龙珠”的“放映时间”的信息。否则如果用户说“任何其他卡通片?”则话题检測模型262可以确定这是新的话题的开始,也就是说该用户正试图从“龙珠”切换到某个新的“卡通片”。在该聊天机器人和该用户之间的對话中开始新话题的该用户意图指示为该用户推荐媒体内容的机会该媒体内容可以是电视节目或广告视频。话题检测模块262用于识别这样嘚机会以便在适当的时间为该用户推荐电视节目或视频广告。

评论生成模型266自动地生成针对特定演员或特定电视节目的评论应该理解,术语“演员”指的是男演员或女演员或歌手或本公开中的任何一种演员在一个实现中,该评论生成模型有两个部分一个部分以一般嘚方式生成针对演员的评论,其与当前电视节目没有直接关系另一个部分生成针对特定电视节目的评论或推荐理由。通过在该聊天机器囚和该用户之间的对话中提供该演员和/或电视节目的评论可以使该用户有兴趣与该聊天机器人谈论起该电视节目或演员,这样能够收集關于用户针对该媒体内容相关话题的兴趣的更多信息以便得出与该媒体内容相关的用户简档。

SA模型268将针对该电视节目的用户评论分类为各种情感类型诸如高兴的(happy)、难过的(sad)、愤怒的(angry)等。该SA模型的一个应用是捕获用户对媒体内容的兴趣这样的用户兴趣数据可以用来向该用戶推荐更合适的电视节目或视频广告,以便改进对于所推荐的电视节目和视频广告的用户满意率

视频剪辑模块266用于剪裁出给定电视节目嘚精彩而令人印象深刻的部分。当在该聊天机器人和该用户之间的对话中推荐电视节目时可以在该对话中呈现该电视节目的被剪裁的部汾以供该用户快速查看。

推荐模块260可以用基于学习排序(LTR)的推荐算法来实现该基于学习排序(LTR)的推荐算法用于从数据库254和/或256识别电视节目和/戓视频广告。

210的示例聊天窗口320显示在诸如智能电话的计算设备300上。聊天窗口320包括呈现区域322、控制区域324和输入区域326呈现区域322呈现在用户囷聊天机器人之间的对话中的查询和响应,图标310代表聊天机器人控制区域324包括用于用户执行消息输入设置的多个虚拟按钮。例如通过控制区域324,用户可以进行语音输入、附加图像文件、选择表情符号以及创建当前屏幕的快捷方式等输入区域326用于用户输入消息。例如鼡户可以通过输入区域326键入文本。控制区域324和输入区域326可统称为输入单元用户也可以通过该输入单元与AI聊天机器人进行语音通话或视频對话。

例如在如图3所示的UI中,用户输入消息“玲奈你多大了”作为查询,聊天机器人输出消息“高中二年级”作为响应类似地,用戶输入消息“你吃早餐了吗”作为查询聊天机器人输出消息“吃了,你呢”作为响应在这里,玲奈是该AI聊天机器人的名字AI聊天机器囚也可以被称为AI聊天系统。应该理解消息的输入可以是以语音的形式,并且在UI中所示出的文本只是该语音的转录文本甚至也有可能该語音的转录文本也不显示在该屏幕上,而该聊天机器人和该用户之间的对话是通过语音来进行的

尽管计算设备300被示出为智能电话,但是其可以是任何其它种类的计算设备诸如电视130、电视盒150,其中该UI可以显示在与电视盒150连接的电视130和电视154上。

图4示出了根据一个实施例的聊天机器人和用户之间的示例性对话流

该对话流可以在如图3所示的UI 320中实现,为了清楚起见在图6中仅示出了呈现区域322。界面400右侧的人形圖标表示用户界面400左侧的年轻女孩形状的图标表示聊天机器人。

在该用户输入消息“音乐”之后聊天机器人,具体地话题检测模块262,可以识别开始与诸如电视节目和视频广告的媒体内容相关的新话题的用户意图然后,聊天机器人具体地,推荐模块260可以基于新的喑乐话题识别音乐节目。例如推荐模块260可以基于该话题和该用户简档对候选电视节目的匹配率进行评分,并且基于该匹配率从候选电视節目中选择音乐节目在这个示出的示例中,向该用户推荐将展示演员岚(Arashi)的新歌的电视节目在该示出的示例中,向该用户呈现该电视节目的简短介绍例如“岚(Arashi)将在M电台展示新歌!奥斯汀·马洪(Austin Mahone)将演唱一件佐藤圣良(blouson chiemi)的搞笑作品!”,然后呈现所推荐的电视节目的视频片段戓代表性图像以供用户快速查看然后在该对话中呈现针对所推荐的电视节目的评论,例如“4月28日(星期五)美国歌手奥斯汀·马洪将在朝日电视台(TV Asahi)的“音乐现场”(“Music Station”)节目中首次亮相”,针对所推荐的电视节目的评论也可被称为所推荐的电视节目的推荐理由在另一个实现Φ,当提供该电视节目的推荐时可以提供更多或更少的信息,例如当提供该电视节目的推荐时,可以提供针对所推荐的电视节目的演員的评论以岚为例,可以向该用户提供针对该演员的评论诸如“岚如此受年轻人的欢迎,是因为他们的帅气的外表和歌唱才华”

响應于该用户关于上映时间的查询,在该对话中提供上映时间或播出时间并且响应于用户的反馈“为我预约这个节目”,该聊天机器人可鉯为该用户预约该节目作为预约的一个示例,该聊天机器人可以为该用户设置提醒以便在该节目的播出时间之前不久提醒该用户观看該节目。作为预约的另一个示例该聊天机器人可以向电视或电视盒发送指令以预先设置该节目的播放,使得该电视或电视盒可以在播出嘚时间自动地切换到节目作为预约的另一个例子,该聊天机器人可以只在该用户的预约列表中设置一项预约信息

在另一个实现中,如果所推荐的节目正在放映中则响应于诸如“我想观看这个节目”的用户反馈,该聊天机器人可以在该电视上播放该节目

图5示出了根据┅个实施例的聊天机器人和用户之间的示例性对话流。

在该用户输入消息“请跟我说说刚力彩芽(Ayame Goriki)”之后该聊天机器人可以提供响应,诸洳针对该演员的评论“当然不能算是一张长得很漂亮的脸但她的微笑还是非常棒的”。

当该用户输入消息“刚力彩芽出演的电视剧”之後该聊天机器人,具体地话题检测模块262,可以识别与诸如电视节目和视频广告的媒体内容相关的新话题然后,该聊天机器人具体哋,推荐模块260可以基于刚力彩芽出演的电视剧的新话题来识别电视剧节目。类似地可以基于候选电视节目的匹配率的评分,识别所推薦的电视剧节目如聊天流500中所示,在该对话中呈现该电视节目的简短介绍、所推荐的电视节目的视频片段或代表性图像、以及针对所推薦的电视节目的评论或推荐理由

响应于该用户的反馈“为我录制这个节目”,该聊天机器人可以在该电视或电视盒中预先设置这个节目嘚录制并且向该用户作出响应,例如“了解录制将被完成”。

图6示出了根据一个实施例的聊天机器人和用户之间的示例性对话流

在該用户输入消息“岚的新歌”之后,该聊天机器人具体地,话题检测模块262可以识别与诸如电视节目和视频广告的媒体内容相关的新话題。然后该聊天机器人,具体地推荐模块260,可以基于岚的新歌的新话题识别视频广告类似地,可以基于候选视频广告和电视节目的匹配率的评分来识别所推荐的视频广告如聊天流600中所示,在该对话中提供该新歌的视频广告和该广告的购买信息诸如购买该新歌专辑嘚链接。

图7示出了根据一个实施例的聊天机器人和用户之间的示例性对话流

在该用户输入消息“岚的新歌”之后,该聊天机器人具体哋,话题检测模块262可以识别与诸如电视节目和视频广告的媒体内容相关的新话题。然后该聊天机器人,具体地推荐模块260,可以识别當该短电视节目数据库中的短视频片段与该用户的话题相关时该电视节目数据库中没有电视节目满足该用户的需求,而借此机会可以向該用户推荐演唱会的视频广告然后,在聊天流700中所示出的若干轮对话之后在该对话中提供该演唱会的视频广告和该广告的购买信息。與对话流600相比在提供该视频广告之前,聊天流700提供更多的软对话并且对于用户来说更容易接受。

图8示出了根据一个实施例的用于构建與电视节目相关的知识图谱的示例性过程

从电视节目数据库810开始,该电视节目数据库中包含的描述文本和一般评论850可用于以元组<实体屬性,值>和<话题话题,相似性>的格式提取知识图谱

例如,以下数据记录在该电视节目数据库中:

<节目名称=越狱第五季

放映时间=夲季于2017年4月4日首播,并在每周二晚9点播出

演员名单={温特沃斯·米勒饰迈克尔·斯科菲尔德,多米尼克·珀塞尔饰林肯·伯罗斯,莎拉·韦恩·卡丽丝饰萨拉·斯科菲尔德,…}

描述文本=越狱第五季(也称为越狱:复活)是一部限定事件电视剧,是2005年至2009年在福克斯电视台播出的由保罗·舒尔灵(Paul Scheuring)创作的原创剧的续集该季由二十世纪福克斯电视台与阿黛尔斯坦/巴鲁斯(Adelstein/Parouse)制作公司和原创电影公司(Original McCormick)一起担任执行制片人。麦科米克还担任导演本季于2017年4月4日首播,并在每周二晚9点播出该剧的第一部预告片于2016年5月16日发布。

一般评论=林肯仍然粗暴而冲动迈克尔还会有那种孤独的不远不近的凝视。周二的首播暗示着未来会有大量行动若干并行的现实世界的情节,还有冗长的剧情可能会向有趣的方向发展希望那个方向终将成为结局。

然后可以构造<实体,属性值>格式的以下知识图谱:

<越狱第五季,放映时间本季于2017年4月4ㄖ首播,并在每周二晚9:00播出>

<越狱第五季放映位置,美国>

<越狱第五季演员,{温特沃斯·米勒饰迈克尔·斯科菲尔德,多米尼克·珀塞尔饰林肯·伯罗斯,莎拉·韦恩·卡丽丝饰萨拉·斯科菲尔德,…}>

<越狱第五季图像,图像列表>

<越狱第五季评论,林肯仍然粗暴而冲动…>

<越狱苐五季视频文件,越.狱.第五季.mp4>

<越狱第五季描述,越狱的第五季(也被称为越狱:复活)…>

另一方面对于电视节目数据库中的描述文本和┅般评论,使用依赖关系解析提取在实体及其属性之间的以及共享一个依赖弧的一对实体之间的句法关系

图8A示出了对于句子“福克斯将偅新启动新一季的越狱”的依赖关系解析的示例。从这个依赖关系解析树来看谓词“重新启动”可用于连接其主语和宾语论元,以获得え组<福克斯重新启动,新一季的越狱>应该理解,可以通过使用现有技术来执行该依赖关系解析并且为了简单起见,所示出的依赖关系解析树仅示出了必要的弧

图8B示出了对于句子“与“越狱”相比,“绝命毒师”具有较高评分”的依赖关系解析的示例在这个示例句孓中,由于“越狱”和“绝命毒师”是通过“依赖关系”弧连接的因此提取诸如<越狱,绝命毒师依赖关系>的元组,以表明这两部电视劇之间存在话题关系

基于所收集的<话题,话题依赖关系>元组,可以计算两个话题的相似性分数计算话题A和话题B的相似性的一个示例洳下:

其中,x是指与话题A具有依赖关系的任何话题y指的是与话题B具有依赖关系的任何话题。

另一方面可以从网络挖掘<实体,属性值>鉯及<话题,话题相似性>格式的知识图谱。在820电视节目数据库810可用于提供相关的关键词,诸如节目名称、类别、演员等在830,可以通过使用搜索引擎基于这些关键词执行网络搜索以获得用于该电视节目的相关网络数据840。然后在860,解析该网络数据诸如在搜索到的网页Φ的文本等,以获得<实体属性,值>和<话题话题,相似性>格式的相关元组该网络数据的解析类似于如图8A和8B中所示的解析。

应该理解鈳以在860统一解析文本数据840和850,以获得与该电视节目相关的知识图谱其随后可以由话题检测模型262使用。

在一个实现中该话题检测模型以當前用户查询、当前对话会话、该电视节目数据库、和该知识图谱作为输入。可以通过该对话中传送的消息流来定义对话会话其中,一個对话会话中的任何两个连续消息应该在预定义时间距离(诸如30分钟)之内输出也就是说,如果距离该聊天机器人的最后一次响应之后的该礻例性的30分钟之内该用户没有发送任何内容,则当前对话会话结束而当该用户开始向该聊天机器人发送消息时,开始新的会话

该模型的输出的格式是<话题词语列表,相似性分数>其中,该话题词语列表包括包含在该当前用户查询中的话题词语

在一个实现中,可以在從查询中检测到话题词语之前对该查询进行查询补足该查询补足的一个部分是指代消解,其用于使用确切的实体名称代替该查询中的指玳内容诸如代词、由不同的字符串表达的同一个话题。该查询补足的另一部分用于补全可能缺少的部分诸如该查询中的主语或宾语。鉯连续查询“我想看龙珠”和“什么时候有最新的一集”为例,基于该对话的上下文可以将该查询“什么时候有最新的一集?”补足為“什么时候有龙珠的最新的一集”。

在一个实现中可以通过文本处理从该当前用户查询中选出话题词语列表,该文本处理可以包括詞语分割、词性(POS)标记、名词短语提取、命名实体识别(NER)在另一个实现中,在将该知识图谱和/或该电视节目数据作为数据语料库或者数据集匼的同时可以通过进一步使用诸如TF-IDF(词频-逆向文档频率)的术语加权算法挑选出话题词语的列表。例如词语的词频TF指示在该数据语料库中嘚该词语的词频,该词语的逆向文档频率IDF指示在该数据语料库中包含该词语的文档数量可以基于该两个因素将权重给予话题词语。通常凊况下TF越大导致权重越大,而IDF越小导致权重越大

该输出<话题词语列表,相似性分数>中的相似性分数是为了表明当前话题词语列表接近於当前对话会话中包括的话题的程度在训练数据中,这个“相似性分数”取值为1其表示深入一个话题,或者取值为0其表示从一个话題拓展到另一个新话题。在一个实现中使用概率模型,因此该输出相似性分数在区间[01]中取值。例如当该分数大于诸如0.5的阈值时,其指示该用户查询与该当前对话会话之间的类似话题否则,其指示该用户查询的新话题应该理解,该话题检测模型的输出可以包括该列表中的话题词语的相似性分数其中通过将该话题词语的相似性分数相加可以获得该查询的相似性分数。

在一个实现中训练逻辑回归模型,以将该当前查询归类为新的话题或不是新的话题该逻辑回归模型可以作为该话题检测模型的一部分。在该逻辑回归模型中可以使用鉯下特征中的至少一部分

在该逻辑回归模型中可以使用的特征是该当前对话会话的话题词语列表和该当前查询的话题词语列表之间共享嘚话题词语的数量。

在该逻辑回归模型中可以使用的特征是该当前对话会话的话题词语列表和该当前查询的话题词语列表之间共享的话题詞语占该两者的话题词语的总数的比例具体而言,该比例=共享的话题词语的数量/(当前会话的话题词语的数量+当前查询的话题词语的数量)

在该逻辑回归模型中可以使用的特征是该会话话题词语列表中的词语和该当前查询话题词语列表中的词语之间的最接近知识图谱距离。例如对于当前查询中的话题词语“绝命毒师”和当前会话中的话题词语“24小时”,以及两个元组<越狱绝命毒师,0.1>和<24小时越狱,0.2>鈳以获得该知识图谱距离为两个跳,或者为匹配概率0.02=0.1×0.2通过该元组的话题之间的匹配将带来更多的新话题的分类。

在该逻辑回归模型Φ可以使用的特征是当前查询话题词语列表中的词语是否是当前会话话题词语列表中的词语的属性对于当前会话中的话题词语“绝命毒師”和当前查询中的“多少集”,元组<绝命毒师剧集的数量,15>被触发这将带来更多的类似话题的分类。

在该逻辑回归模型中可以使用嘚特征是当前查询话题词语列表中的词语与当前会话话题词语列表中的词语在该电视节目数据库中是否属于同一类别

在该逻辑回归模型Φ可以使用的特征是该会话话题词语列表的词语和该当前查询话题词表中的词语之间的最小的基于词到向量(word2vec)的余弦分数。

图9示出了根据一個实施例的用于收集用于评论生成模块266的训练数据的示例性过程

该评论生成模型有两个部分,一个部分生成一般方式的针对演员的评论另一部分生成针对给定的电视节目的评论或推荐理由。该两个部分的每一个部分也可以被称为评论生成模块

在910可以从该电视节目数据庫获得演员信息。在912可以基于该演员信息,诸如演员姓名由搜索引擎执行网络搜索,以获得与该演员相关的网络数据914在916,可以对该網络数据执行情绪分析以检测出针对该演员的情感评论918。随后将该演员的一般描述以及该演员的情感评论作为用于训练该评论生成模塊的训练对。该演员的该一般描述可以从该电视节目数据库获得也可以从网站获得,诸如该演员的个人网站、娱乐公司的网站、基于知識的网站等等。

在922可以从该电视节目数据库获得电视节目信息。在924可以基于该节目信息,诸如节目名称由搜索引擎执行网络搜索,以获得与该电视节目相关的网络数据926在928,可以对该网络数据执行情绪分析以检测出针对该节目的情感评论930。随后将该节目的一般描述以及该节目的情感评论作为用于训练该评论生成模块的训练对。该节目的该一般描述可以从该电视节目数据库获得也可以从网站挖掘,诸如该节目供应商的网站、基于知识的网站等等。一种示例性的训练对是<e=“越狱第五季(也称为越狱:复活)是一部限定事件电视剧是2005年至2009年在福克斯电视台播出的由保罗·舒尔灵(Paul Scheuring)创作的原创剧的续集。”f=“林肯仍然粗暴而冲动。迈克尔还会有那种孤独的不远不菦的凝视”>

对于一个电视节目的情感评论部分地受到针对该电视节目的演员的情感评论的影响。并且对于该演员的情感评论受到针对甴该演员参与的电视节目的情感评论的影响。因此在一个实现中,将电视节目的情感评论作为该电视节目中的演员的情感评论并且将該电视节目中的演员的情感评论作为该电视节目的情感评论,表示为“联合部分共享”其用于缓解潜在的数据稀疏。

图10示出了根据一个實施例的示例性的评论生成模型

利用基于注意力的编码-解码神经网络模型来实现该评论生成模型,该神经网络模型包括编码层、内部语義层、隐藏循环层、以及解码层

在该编码层,可以对输入序列实施双向循环操作以便获得源向量。该输入序列可以是上述训练对中的描述文本并且相应地,该输出序列可以是该训练对中的评论该双向循环操作涉及两个方向,例如由左到右和由右到左。该双向循环操作可以基于诸如,门控循环单元(GRU)风格的循环神经网络该源向量可用时间上的注释(temporal annotations)hj来表示,其中j=12,...Tx,并且Tx是该输入序列的长度例如,该输入序列中的词语的数量可以通过使用以下等式来获得源向量hj。

zt表示更新门控向量

rt表示重置门控向量。

WU,b表示参数矩阵囷向量Wz是将输入向量xt投射到遵循zt的向量空间的矩阵,Uz是将隐藏层(循环层)ht-1投射到也遵循zt的向量空间的矩阵而bz是试图确定目标向量zt的相对位置的偏置向量。类似地Wr、Ur、和br将xt、ht-1投射到rt的向量空间。

在内部语义层可以实现注意力机制。可以基于一组时间上的注释(temporal annotations)hj计算上下文姠量ci并且可以将其作为该当前输入序列的时间上的密集表示。该上下文向量ci可被计算为该时间上的注释hj的加权和如以下等式所示:

用於每个hj的加权αij也可以被称为“注意力”加权,并且可以通过softmax函数来计算:

其中eij=a(si-1,hj)是对齐模型,其对位置j周围的输入和位置i处的输出彼此匹配的程度进行评分该对齐分数介于该输入序列的前一隐藏状态si-1和第j个时间上的注释hj之间。概率αij反映了在决定下一隐藏状态si并且同時生成下一词语yi的过程中hj相对于上一隐藏状态si-1的重要性该内部语义层通过施加加权αij来实施注意力机制。

在隐藏循环层通过单向的(例洳从左到右)循环操作确定用于输出序列的隐藏状态si。可以通过诸如单向GRU单元执行该单向循环操作si的计算也参照等式(2)-(4),其中将hi替换为si。

茬解码器层可以通过如下等式确定对下一词语yi的词语预测:

其中,si来自隐藏循环层ci来自内部语义层。这里g(.)函数是非线性、潜在多层函数,其输出在输出序列中的接下来的候选词语的概率解码层也可以被称为输出层。因此所训练的生成模型可以从电视节目的一般描述或者演员的一般描述生成针对该电视节目的评论或者针对该演员的评论。

图11示出了根据一个实施例的用于收集用于情绪分析分类器的训練数据的示例性过程1100

可以执行过程1100用于通过扩展种子情感词语生成情感词库以及通过使用该情感词库进一步确定训练数据集。

在1110可以獲得种子情感词语。在这里该种子情感词语可以包括与每个情感类型相对应的情感词语。例如该种子情感词语可以包括与情感“高兴嘚”(happy)相对应的多个词语、诸如“高兴的”(happy)、“高兴的”(pleased)、“愉快的”(glad)、“幸福的”(blessed)等等。该种子情感词语可以从包含带有手动标记的情感極性的词语的现有手动构造的情绪词库中获得这些手动构造的情绪词库只能提供有限数量的种子情感词语。

在1112可以基于该种子情感词語执行词到向量(Word2vec)词语扩展,以便扩展该种子情感词语为每个种子情感词语和来自语料库的词语计算词到向量余弦相似性分数。通过这种方式可以为每个情感词语收集来自于语料库的带有所计算的分数的多个词语,然后可以将多个排序靠前的词语确定为该种子情感词语嘚扩展。例如如图11所示,对于种子情感词语“难过的”(sad)可以基于所计算的词到向量余弦相似性分数确定扩展词语“伤心的”(sorrow)、“不高興的”(unhappy)、“痛苦的”(suffering)、“高兴的”(happy)等等。

应该理解词到向量余弦相似性分数是基于,诸如词语在句子中的位置计算的。因此词到向量词语扩展不能确保所有的扩展词语与相应的种子情感词语具有相似的语义含义。例如在图11中,“高兴的”(happy)被确定为种子情感词语“难過的”(sad)的扩展词语然而,这两个词具有不同的语义含义因此,该过程1100进一步包括修整机制该机制基于双语词语对齐,用于从相应的種子情感词语中移除那些具有不同语义含义或者语义相关性弱的扩展词语

在1114,执行双语词语对齐该双语词语对齐可用于通过两种不同語言之间的双向翻译找到与种子词语语义相关的词语。可以将第一语言的种子情感词语翻译成第二语言的词语例如,中文的种子情感词語“难过的”可以翻译成英文的词语“sorrow”、“unhappy”和“pathetic”然后,可以将该第二语言的词语翻译回第一语言的词语例如,英文的词语“sorrow”、“unhappy”和“pathetic”可以翻译回中文的词语“伤心的”、“不高兴的”和“悲哀的”因此,可以通过对该种子情感词语“难过的”的双语词语對齐获得词语列表“伤心的”、“不高兴的”和“悲哀的”

在1116,可以对在1112通过词到向量词语扩展获得的扩展词语和在1114通过双语词语对齐獲得的词语列表进行交集操作该交集操作可用于移除那些通过词到向量词语扩展获得的与相应的种子情感词语具有不同语义含义或者语義相关性弱的扩展词语。例如在图11中,通过该交集操作可以保留源格式词语“伤心的”(sorrow)和“不高兴的”(unhappy),而将相对于“难过的”(sad)语义楿关性弱的词语“痛苦的”(suffering)和相对于“难过的”(sad)具有不同语义含义的词语“高兴的”(happy)移除

通过该交集操作,可以将所保留源格式的词语附加到情感词库1120在一个实现中,情感词库1120中的词语可以被进一步添加相应的表情符号例如绘文字(emoji)或颜文字(kaomoji)。在1118可以针对每种类型的凊感从网络收集绘文字(emoji)或颜文字(kaomoji)。例如对于情感“难过的”(sad),其对应的表情符号可包括例如,“><”、“(つд)”等因此,可以将这些表情符号附加到与该情感词库1120中的情感“难过的”(sad)相对应的词语“难过的”(sad)、“伤心的”(sorrow)和“不高兴的”(unhappy)

如以上所讨论的,通过对种子凊感词语执行词到向量词语扩展和双语词语对齐建立情感词库1120并且情感词库1120可以包括比手动构造的情绪词库多得多的词语。情感词库1120可鉯用作用于执行在1122处的网络搜索的关键词以便找到网络数据,诸如包含情感词库1120中的至少一个词语的句子该句子中的每个句子可以用該句子包含的情感词库1120中的相应词语的情感来标记。这些句子与相应的情感标签一起可以用作候选训练数据1124

在一些情况下,候选训练数據1124可以包括具有模糊的情感或难以识别情感的一些干扰句子一个示例性的干扰句子可以包括词语“不”(not)或其等同词,其可以从初始情感切换到相反的情感另一个示例性的干扰句子可以以混合的方式包括肯定的词语和否定的词语,例如“先表扬,然后再批评”支持向量机(SVM)分类器1126可用于从候选训练数据1124中过滤掉干扰句子。可以获得一组分类器训练数据1128用于训练SVM分类器480对于除“中性的”以外的情感,可鉯针对每一种类型的情感来手动标记实例作为分类器训练数据。对于“中性的”情感可以从网络收集不包含情感词语或绘文字(emoji)/颜文字(kaomoji)嘚句子作为训练数据1130。

通过该分类器训练数据SVM分类器1126可以被训练为区分候选训练数据1124中的干扰句子与其他句子。候选训练数据1124中的余下嘚句子可以形成训练数据集1130用于训练情绪分析分类器

应该理解,在过程1100中SVM分类器1126执行的操作是可选的因此,在一个实现中也可以在過程1100中不执行SVM分类器1126的操作,并且相应地候选训练数据1124可以直接形成训练数据集1130。

图12示出了根据一个实施例的示例性SA分类器1200SA分类器1200是SA模型268的一个示例,并且可以通过图11中所获得的训练数据集来训练SA分类器1200

SA分类器1200可以基于字符级的循环卷积神经网络(RCNN)。字符级的RCNN能够对来洎字符的语义和正字法信息进行编码该字符级RCNN可以包括嵌入层、卷积层、循环层和输出层。

嵌入层可以将句子转换到密集的向量空间唎如,为该句子中的每个字符生成情感向量

卷积层可以是基于CNN的,并且可以对来自嵌入层的情感向量执行卷积操作例如以各种核尺寸對情感向量进行转换。

假设为字符嵌入矩阵其中d是字符嵌入的维数,V是字符词汇集假设词w=c1,...cl,其中有l个字符然后,由矩阵给出w嘚字符级表示其中Cw的第j列对应于cj的字符嵌入,其也是Q的第cj列在Cw和宽度为f的过滤器或卷积函数之间实施窄卷积。图12示出了宽度为f=3、5和7嘚三个示例性过滤器然后,加入偏置并且应用非线性转换以获得特征图fw的第i个元素可以被给定为:

在一个实现中,可以采用在卷积层嘚CNN例如时间维度上的最大池化(pooling)。

循环层可以对卷积层的输出进行循环操作应该理解,尽管图12示出了循环层中的单向循环操作也可以茬该循环层中应用双向循环操作。该循环层也可被称为RNN层其可以采用长短期存储器(LSTM)单元。通过在每个时间步以记忆单元向量来扩展传统RNN该LSTM可以解决长距离依赖的学习问题和梯度消失问题。该LSTM的一步将xtht-1,ct-1作为输入并且通过以下的中间计算得到ht、ct:

function),是元素级的乘法运算符it、ft、ot分别表示输入门、遗忘门和输出门。当t=1时h0和c0被初始化为零向量。在LSTM中要被训练的参数是矩阵WjUj,以及偏置向量bj其中j∈{i,f,o,g}。

該输出层可以使用来自循环层的RNN状态作为特征向量并输出情感分类结果。例如该输出层可以是能够将来自该循环层的256维向量转换成为與8类情感相对应的8维向量输出的全连接层。在一个实现中该8类情感包括高兴的、惊讶的、愤怒的、厌恶的、难过的、蔑视的、恐惧的和Φ性的。在一个实现中该SA分类器可用于在916和928处收集情感评论。在一个实现中该SA分类器可用于对针对目标电视节目的用户评论和意见进荇分类。

图13示出了根据一个实施例的用于从长视频中剪裁出短视频的示例性RCNN结构1300该RCNN结构1300是视频剪辑模块264的一个示例。

由帧组成的视频1310被汾为短时长片段1314该片段可以具有固定的时长,例如若干秒在一个实现中,将片段1314和相应帧1312发送到三维(3D)CNN和2D CNN其将该片段编码成密集向量表示。应该理解可以通过使用现有技术来实现由2D CNN 1316和3D CNN 1318构成的CNN编码器1315,因此为简单起见,在此处不描述该2D CNN 1316和3D CNN 1318的详细结构应该理解,可以將视频片段编码为向量的任何技术都适用于本公开

RNN编码器1320的示例性结构包括池化层1322,注意力层1324和LSTM编码层1326可以通过使用现有技术来实现烸个层,因此为简单起见,在此处不描述这些层的详细结构将通过CNN编码获得的向量发送到RNN编码器1320以捕获对应于片段1314的向量的上下文信息。

然后双向RNN层1328用于将片段1314的向量链接在一起。可以用LSTM或GRU单元来实现双向RNN层1328

决策层1330用于将该向量分类为0或1。该决策层可以实现为softmax层當该softmax层为一个向量断定0的标签,则该向量不被保留源格式而当该softmax层为一个向量断定1的标签,则该向量被保留源格式因此,可以将该片段选择出来保留源格式在被剪裁的短视频中

用于这个生成模型的训练数据的格式可以是<完整视频文件,所选的令人印象深刻的短视频文件>的格式可以手动地剪裁出所选择的令人印象深刻的短视频文件。且可以从用于预告相关节目的那些短视频中收集该手动剪裁的短视频

图14示出了用于从用户日志数据获得用户简档的示例性过程1400。

该用户日志数据记录用户与该聊天机器人的对话历史并且通常采用<查询,響应>对的形式该用户日志数据也可以包括其他信息,诸如节目的收看时间在1410,按照对话会话整理用户日志数据1410如以上所讨论的,一個会话中的任何两个连续的查询是在预定时间间隔之内的诸如30分钟。

在1412基于会话的上下文,对该会话中的查询执行查询补足该查询補足的一个部分是指代消解,其用于使用确切的实体名称替换该查询中的指代内容诸如代词、由不同的字符串表达的一个话题。该查询補足的另一部分用于补全可能缺少的部分诸如该查询中的主语或宾语。

在1416对于每个查询执行话题检测以便提取话题。该查询补足和话題检测类似于以上结合话题检测模型所述的查询补足和话题检测

在1414,对于每个查询执行SA分类以获得查询的SA标签,以及该查询中的话题嘚SA标签

例如,对于查询诸如“我喜欢电影海边的曼彻斯特,卡西·阿弗莱克这一次比他的哥哥演得好”,可以获得该用户的知识<用户A喜欢,海边的曼彻斯特><用户A,喜欢卡西·阿弗莱克>,其中“海边的曼彻斯特”是一部电影的名字“卡西·阿弗莱克”是一个演员的洺字。这些类型的知识可以帮助建立带有用户喜欢的演员名单和喜欢的节目列表的更新的用户简档

在1418,基于已有的话题类别数据库识別所检测的话题的类别,该话题类别数据库包括预定义的类别诸如电影、音乐、演员等等。类别还可以包括子类别例如,电影的类别鈳以包括子类别诸如喜剧片、悲剧片、浪漫爱情片等等。

在1420可以获得具有诸如<用户A,话题A话题A的类别,带有频率的情感标签>格式的該用户的示例性知识带有频率的情感标签可以指示该用户A的关于该话题A的情感以及用户A的关于该话题A的此类情感被检测到的次数。该用戶的该知识可用作用户简档其可以提供针对具体节目和演员的该用户的倾向。

应该理解该用户简档还可以包括对于特定类别或特定演員的该用户的情感或概率。例如如果对于特定类别该用户一次或者多次给出好评,则对于这个用户的该特定类别的概率将被给予更高的汾数基于该SA结果并且根据该用户的关于该特定类别的特定情感被检测到的次数,可以确定该分数如果对于特定演员,该用户一次或者哆次给出好评则对于这个用户而言该演员的概率将被给予更高的分数。因此诸如<用户A,类别概率>,<用户A演员,概率>等的知识也可鉯被包括在该用户简档中

应该理解,用户知识1420还可以包括其他信息例如,该用户A针对该话题A的评论该用户针对该话题A的观看时间。

基于学习排序(LTR)的电视节目和视频广告推荐算法可以被用于推荐模块260以在特定查询下为特定用户提供可用的电视节目和视频广告的排序。鈳以训练梯度提升决策树(GBDT)用于该排序该排序可以基于该用户简档、该电视节目和视频广告、该当前查询、该会话,等等以下特征中的臸少一部分可用于该GBDT算法。

可用于该GBDT的一个特征是来自话题检测模型262的输出该输出包括该当前查询的话题词语列表以及与当前对话会话楿比的当前查询的话题词语的相似性分数。可以通过将该话题词语的相似性分数相加来获得该当前查询的相似性分数应该理解,当前查詢的该相似性分数也可以是从话题检测模型输出当该相似性分数指示从当前话题到新话题的宽度扩展时,此时是推荐该新提到的电视节目和/或相关视频广告的机会在一个实现中,该当前查询的该相似性分数被用作决定因数其中,只有当该相似性分数指示与媒体内容相關的新话题时才进行后续的排序在另一个实现中,该当前查询的该相似性分数被用作权重因数如果与媒体内容相关的新话题被指示,則该当前查询可以被赋予较高的权重从而可以提高总体排序分数,并且因此如果该当前查询与新话题相关,则推荐可能性将被提高

鈳用于该GBDT的一个特征是该电视节目的类别。一方面如果候选节目的类别与在该查询中提到的话题类别相匹配,则该候选节目被给予更高嘚排序分数例如,如果该用户正在谈论一部诸如“星球大战”的电影则类别“电影”或“科幻电影”被给予更高的分数。另一方面與特定用户相关的不同类别可以被给予不同的分数。例如与诸如音乐的第二类别相比,该特定用户更喜欢诸如电影的第一类别则在该鼡户的简档中,该第一类别具有比该第二类别更高的分数在该查询的话题涉及到与该第一和第二类别都相关的演员的情况下,基于该用戶简档该第一类别被给予比该第二类别更高的排序分数。

可用于该GBDT的一个特征是该电视节目或视频广告的演员名单一方面,如果候选節目的一个或多个演员与在该查询中提到的话题的演员信息相匹配则该候选节目被给予更高的排序分数。另一方面与特定用户相关的鈈同演员可以被给予不同的分数。例如与第二演员相比,该特定用户更喜欢第一演员则在该用户的简档中,该第一演员具有比该第二演员更高的分数然后,基于该用户简档具有该第一演员的节目被给与比具有该第二演员的节目更高的排序分数。

可用于该GBDT的一个特征昰该用户喜欢的演员名单和该用户喜欢的演员名单与该电视节目或视频广告的演员名单共享的演员的数量一方面,具有该用户喜欢的演員中的一个或多个演员的节目或视频广告将被给予较高的排序分数另一方面,用户喜欢的演员名单与该电视节目或视频广告的演员名单囲享的演员越多该节目或者视频广告被给予越高的排序分数。

可用于该GBDT的一个特征是电视节目的评论和该电视节目中的演员的评论之间嘚词到向量相似性该词到向量相似性可以被计算为在向量空间中的该两个评论之间的余弦距离。这个特征考虑到对该节目的评价和对该節目中的一些演员的评价之间的不一致性例如,如果该节目中的演员获得较高等级评论而该节目获得较低等级评论(其中这个不一致性通过该词到向量相似性来指示),可以在某种轻度上提高这个节目的排序分数如果该节目中的演员获得较低等级评论而该节目获得较高等級评论(其中,这个不一致性通过该词到向量相似性来指示)可以在某种轻度上降低这个节目的排序分数。

可用于该GBDT的一个特征是该当前对話会话的情感分类该节目的情感分类可以是预定义的,或者可以通过使用SA模型对该节目的评论或描述进行情绪分析来获得而该用户的凊感分类可以通过使用SA模型对该当前对话会话的内容进行情绪分析来获得。其情感适合于该用户的当前情感的节目可以被给予较高的排序汾数例如,如果基于该当前对话会话该SA模型确定该用户是难过的(sad),则匹配该难过的情感的节目被给予较高的排序分数诸如快乐的电影。

可用于该GBDT的一个特征是感兴趣的话题和该用户简档中的该话题的相关情感该用户简档的一个示例是<用户,话题情感>,该情感分数鼡于为从用户的当前查询检测到的话题给予权重该情感分数的一个示例可以是针对特定话题的该情感的频率。

可用于该GBDT的一个特征是竞價数据例如,与视频广告相关的或与诸如娱乐节目的电视节目相关的关键词的竞价价格

可用于该GBDT的一个特征是n词元(word ngrams),诸如对于该查询Φ的词语的单词元(unigram)和双词元(bigrams)这是一个基于字符串的特征。以n词元(word ngrams)为单位来进行该查询和该候选节目或广告之间的匹配

可用于该GBDT的一个特征是n字符元(character ngrams)。这也是一个基于字符串的特征对于该查询中的每个词,提取n字符元以执行该查询和该候选节目或广告之间的基于字符串嘚匹配例如,四元和五元被用作基于字符串的匹配单位该n字符元对于诸如中文和日文的亚洲语言是尤其有优势的。

可用于该GBDT的一个特征是词元略过(word skip-grams)对于在该查询中所有的三元和四元,使用符号替换该词中的一个词以指示非连续词的存在

可用于该GBDT的一个特征是布朗聚類n元(Brown cluster n-grams)。使用布朗聚类代表查询中的词然后提取一元和二元。

可用于该GBDT的一个特征是词性(POS)标签词性标签的存在或不存在被用作二元特征。

可用于该GBDT的一个特征是社交网络相关词语例如,该查询中的话题标签、表情符号、加长词和标点符号的数量被作为特征

可用于该GBDT的┅个特征是词到向量(Word2vec)聚类n元。可以使用词到向量工具(米克罗夫(Mikolov)等人2013)从社交网络数据集学习100维的词嵌入(word embedding)。然后可以使用K-平均算法和词向量的L2距离来将百万级词汇聚类为200类。使用这些类来表示在该查询中的广义的词

应该理解,用于该GBDT的以上所讨论的特征是说明性的而不是限制性的可以有更多或更少的特征用于该GBDT。

图15示出了用于通过智能自动聊天推荐媒体内容的示例性过程1500

在1510,在与用户的对话中从该用戶接收消息

在1512,基于该消息和该对话的上下文识别与媒体内容相关的新话题例如,该新的话题可以是诸如音乐、戏剧等的媒体类别、演员、节目名称、等其与媒体内容相关。

在1514基于该新话题从一组媒体内容识别媒体内容。所识别的媒体内容可以是电视节目其可以昰任何媒体类别,诸如音乐、电影、戏剧等所识别的媒体内容也可以是视频广告,其可以由某些演员来扮演并且可以与某些话题相关。

在1516在该对话中提供该媒体内容的推荐。

在一个实现中进一步地基于与该一组媒体内容相关的知识图谱识别该新话题。在一个实现中该知识图谱包括指示该媒体内容的属性的第一种数据和指示媒体内容之间的相似性的第二种数据。

在一个实现中通过基于该新话题和該用户的用户简档对该一组媒体内容的至少一部分的匹配率进行评分并且基于该匹配率从该一组媒体内容中选择媒体内容,从该一组媒体內容中识别该媒体内容在一个实现中,该用户简档包括以下话题中的至少一个诸如节目名称、该话题的类别、该话题的演员、针对该話题的用户情感、针对该演员的用户情感。在一个实现中该用户简档包括类别和针对该类别的用户情感。在一个实现中该用户简档包括演员和针对该演员的用户情感。在一个示例中可以从该用户简档中获得特定用户的喜欢的演员和/或喜欢的媒体内容,其可以直接记录茬该用户简档中或者可以从该用户简档中推导得到。

在一个实现中进一步基于以下中的至少一个来对该匹配率进行评分:与该一组媒體内容相关的知识图谱、在该对话的上下文中该用户的情感、以及该一组媒体内容的至少一个媒体内容的竞价信息。在一个实现中媒体內容的知识图谱包括该媒体内容的演员、针对该媒体内容的用户评论、和针对该媒体内容的演员的用户评论、该媒体内容的类别、该媒体內容的播出时间中的至少一个。

在一个实现中该媒体内容包括电视节目和视频广告中的至少一个。

在一个实现中响应于对于该推荐的該用户的反馈,可以在电视或电视盒上播放该电视节目或者可以预约该电视节目,或者可以在电视或电视盒上录制该电视节目

在一个實现中,提供该媒体内容的推荐包括提供以下中的至少一个:针对该媒体内容的演员的评论;针对该媒体内容的评论;该媒体内容的代表性图像或者该媒体内容的短视频片段,或者该媒体内容本身;以及诸如与该电视节目相关的播出时间和频道的播出信息或者与该视频廣告相关的购买信息。

在一个实现中通过使用第一神经网络模型,从关于该演员的描述文本生成针对该演员的评论通过使用第二神经網络模型,从关于该媒体内容的描述文本生成针对该媒体内容的评论通过使用第三神经网络模型,从该媒体内容生成该短视频片段

在┅个实现中,通过使用<演员的描述该演员的情感评论>形式的数据对训练该第一神经网络模型,通过使用<节目的描述该节目的情感评论>形式的数据对训练该第二神经网络模型。在一个实现中通过使用SA模型对与该演员相关的网络数据进行情感分析来收集该演员的该情感评論,通过使用该SA模型对与该节目相关的网络数据进行情感分析来收集该节目的该情感评论

在一个实现中,该第三神经网络模型包括卷积鉮经网络(CNN)部分和循环神经网络(RNN)部分通过以下步骤生成该短视频片段:将该媒体内容划分成多个片段;通过该CNN将该多个片段映射到多个向量;通过该RNN识别一部分向量;以及基于该一部分向量,生成该短视频片段该一部分向量代表应被保留源格式在该短视频片段中的片段。

茬一个实现中通过使用<句子,情感标签>形式的训练数据来训练该SA模型在一个实现中,通过以下步骤收集该训练数据:对种子情感词语執行词到向量词语扩展以获得第一扩展词语列表;对种子情感词语执行双语词语对齐以获得第二扩展词语列表;取该第一和第二扩展词语列表的交集以获得情感词库;基于该情感词库通过网络搜索获得候选训练数据集;以及通过利用SVM分类器对该候选训练数据集进行SVM分类来获嘚该训练数据集可以通过使用手动收集的训练数据(例如,每个情感类别1000个数据实例)训练该SVM分类器

图16示出了用于通过智能自动聊天推荐媒体内容的示例性过程1600。

在1610在与用户的对话中从该用户接收消息。在1612从该消息识别至少一个话题。在1614基于该至少一个话题和该用户嘚用户简档对一组媒体内容的匹配率进行评分。在1616基于该匹配率,从该一组媒体内容中选择媒体内容在1617,在该对话中提供该媒体内容嘚推荐

图17示出了用于通过智能自动聊天推荐媒体内容的示例性装置1700。

该装置包括交互模块1710、话题检测模块1720和推荐模块1730交互模块1710在对话Φ接收消息。话题检测模块1720基于该消息和该对话的上下文识别新话题推荐模块1730基于该新话题从一组媒体内容识别媒体内容。并且交互模块1710在该对话中提供该媒体内容的推荐。

在一个实现中话题检测模块1720进一步基于与该一组媒体内容相关的知识图谱识别该新话题。在一個实现中该知识图谱包括指示该媒体内容的属性的第一种数据和指示媒体内容之间的相似性的第二种数据。

在一个实现中通过基于该噺话题和该用户的用户简档对该一组媒体内容的至少一部分的匹配率进行评分并且基于该匹配率从该一组媒体内容中选择该媒体内容,推薦模块1730从该一组媒体内容中识别该媒体内容

在一个实现中,推荐模块1730进一步地基于以下中的至少一个对该匹配率进行评分:与该一组媒體内容相关的知识图谱;在该对话的该上下文中的该用户的情感;该一组媒体内容的至少一个媒体内容的竞价信息

在一个实现中,该媒體内容包括电视节目和视频广告中的至少一个

在一个实现中,该装置包括操作模块用于响应于针对该推荐的该用户的反馈执行以下中嘚至少一个:播放该电视节目;预约该电视节目;以及录制该电视节目。

在一个实现中交互模块1710提供针对该媒体内容的演员的评论作为該媒体内容的推荐。

在一个实现中交互模块1710提供针对该媒体内容的评论作为该媒体内容的推荐。

在一个实现中交互模块1710提供该媒体内嫆的代表性图像、或者该媒体内容的短视频片段、或者该媒体内容作为该媒体内容的推荐。

在一个实现中交互模块1710提供与该电视节目相關的播出信息或者与该视频广告相关的购买信息作为该媒体内容的推荐。

在一个实现中该装置包括演员评论生成模块,用于从关于该演員的描述文本生成针对该演员的评论

在一个实现中,该装置包括媒体内容评论生成模块用于从关于该媒体内容的描述文本生成针对该媒体内容的评论。

在一个实现中该装置包括短视频片段生成模块,用于从该媒体内容生成该短视频片段

应该理解,装置1700还可以包括被配置为用于执行根据以上结合图1-16所述的各实施例的任何操作的任何其它模块

图18示出根据一个实施例的示例性计算系统1800。

系统1800可以包括一個或多个处理器1810系统1800可以进一步包括与该一个或多个处理器1810连接的存储器1820。

存储器1820可以存储计算机可执行指令该计算机可执行指令在被执行时,使得该一个或多个处理器1810在与用户的对话中从该用户接收消息;基于该消息和该对话的上下文识别新话题;基于该新话题,從一组媒体内容识别媒体内容;以及在该对话中提供该媒体内容的推荐

应该理解,该计算机可执行指令在被执行时使得该一个或多个處理器1810执行根据以上结合图1-17所述的实施例的过程的任何操作。

本公开的实施例可以在非易失性计算机可读介质中实现该非易失性计算机鈳读介质可以包括指令,该指令被执行时使得一个或多个处理器执行根据上述实施例的过程的任何操作

应该理解,以上所描述的过程中嘚所有操作都仅仅是示例性的本公开不仅限于该过程中的任何操作或者这些操作的执行顺序,并且应当涵盖与之具有相同或相似概念的所有其他等同物

还应该理解,以上所描述的装置中的所有模块可以以各种方式来实现这些模块可被实现为硬件、软件、或两者的组合。此外任何这些模块都可以在功能上进一步被划分为子模块或被组合在一起。

结合各种装置和方法已经对处理器进行了描述这些处理器可以使用电子硬件、计算机软件或其两者任意组合来实现。至于这样的处理器是实现为硬件还是软件取决于特定的应用以及施加在系統上的整体设计约束。举例来说本公开提供的处理器、处理器的任何部分、或处理器的任何组合可以利用微处理器、微控制器、数字信號处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑设备(PLD)、状态机、门控逻辑、离散硬件电路、以及被配置成执行本公开所描述的各种功能的其他匼适的处理组件来实现。本公开提供的处理器的功能、处理器的任何部分、或处理器的任何组合可以利用由微处理器、微控制器、DSP或其他匼适的平台执行的软件来实现

软件应当被宽泛地解释成意指指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、执行线程、流程、功能等。该软件可驻留在计算机可读介质上计算机可读介质可以包括,唎如诸如磁存储设备(如硬盘,软盘磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器、或可移动磁盘的存储器。尽管从本公开中的各个方面来说存储器被示为与处理器是分开的但对于处理器来说,存储器可以在其内蔀(例如高速缓存或寄存器)。

提供以上描述是为了使任何本领域技术人员均能实践其中所描述的各个方面对于这些方面的各种修改对于夲领域技术人员是显而易见的,此处定义的一般原理可以适用于其他方面因此,权利要求并非旨在被限定于以上所描述的各个方面本公开描述的各个方面中包含的各要素的为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案以引用的方式被明确添加茬此,并且旨在被权利要求所涵盖

}

我要回帖

更多关于 保留源格式 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信