教育视频库中的自动生成目录和摘要方法

135 浏览量更新于2023-10-15 收藏 1.2MB PDF 举报

2018

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂267教育视频分级目录的自动生成德巴布拉塔·马哈帕特拉印度班加罗尔debabrata. videoken.com拉古纳坦·马里亚潘新加坡国立大学计算机学院mragunathan@nus.edu.sg瓦伊哈夫·拉詹新加坡国立大学计算机学院vaibhav. nus.edu.sg摘要来自大学和其他组织的免费在线教育视频的数量正在迅速增长准确的索引和摘要对于视频的高效搜索、推荐和有效消费是必不可少的在本文中，我们描述了一种新的方法，自动创建一个层次的视频内容它提供了视频内容的摘要以及用于非线性导航和搜索视频的类似教科书的我们的多模态方法结合了镜头级视频分割和分层摘要的新方法实证结果表明，我们的方法在许多教育视频的有效性CCS概念• 计算方法→信息提取;视频摘要;视频分割;·应用计算→教育;关键词目录;镜头分割;文本摘要;树背包ACM参考格式：Debabrata Mahapatra，Ragunathan Mariappan和Vaibhav Rajan。2018年。教育视频分级目录的自动生成。在WWW '18伴侣：2018年网络会议伴侣，2018年4月23日至27日，法国里昂。ACM，New York，NY，USA，8页。 https://doi.org/10。1145/3184558.31863361介绍大规模开放式在线课程（MOOCs）和其他在线学习资源在互联网上增加了许多高质量的教育视频。这一数字已经数以万计，而且还在与日俱增。因此，用于搜索和推荐的工具对于在线查找相关内容是不可或缺的。反过来，搜索工具依赖于基于描述视频内容的元数据的有效索引和摘要。这样的元数据通常是手动创建的，例如通过视频的标签和标题，其不能缩放并且通常是不准确的。讲座录音通常是长达几个小时的长视频学习者可能只对本文在知识共享署名4.0国际（CC BY 4.0）许可下发布作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.3186336或者可能需要查看视频内的特定部分这两项任务都可以通过目录（ToC）来促进，目录可以直接引导学习者进入视频中的相关部分。构造良好的ToC本身可以提供用于在视频数据库中进行有效搜索的摘要以及元数据。尽管MOOC的趋势是短视频，但仍然存在大量先前录制的长讲座。此外，一些演示文稿（例如在教室中）或某些主题（例如，长样张）可以继续保持长视频，对于该长视频，ToC将是有用的摘要和索引工具。光学字符识别（OCR）的鲁棒方法[32]可用于从视频中的帧中提取视觉单词自动语音识别（ASR）工具也在迅速改进[28]。这两种系统的识别精度取决于视频特征，如图像分辨率、口语和所使用的口音等。但是即使具有相当好的输出，仍然存在组织所提取的信息以形成视频的连贯概要的问题在本文中，我们开发了一种方法，自动创建一个层次的目录的教育视频，专注于两个关键方面：视频分割和分层目录创建。当镜头边界具有突变时，视频分割相对更容易。对于通常在镜头之间具有逐渐过渡的我们设计了一个分割方法，使用一个新的内容表示来捕捉视觉形状信息和一个新的信号结构，可以检测渐变和突变。此外，与使用帧之间的各种相似性度量并且在相似性低于固定阈值时确定镜头边界的先前方法相比，我们的方法不使用固定阈值：它基于输入视频的信号特性自适应地确定阈值。使用所识别的镜头作为基本的主题单元，我们开发了一种方法，总结每个镜头，并以分层的方式聚合的摘要，以创建一个最终的分层ToC的视频。与以前的提取摘要方法，使用文本源作为输入不同，我们的方法推断依赖关系，从多模态，时间依赖的文本信息提取的视频。我们开发了一个基于树背包问题的配方，用于生成最终的TOC。在本文中总结我们的贡献是：我们开发的第一种方法，称为HMMToC，自动创建一个多模态层次目录（ToC）的教育视频。ToC提供视频的摘要和用于非线性导航和搜索整个视频的·跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂268×个×个联系我们转--P001101.ΣP图1：第一行示出了从视频UGS01.mpg提取的彩色图像帧（大小240 352），该视频UGS01.mpg从TRECVID 2002数据集[21]获得;第二行图像是对应的Canny边缘图Ec;第三行示出了分块熵S（大小29 43）;注意，二值化产生的边缘图中的噪声和连续帧形状的细微变化在相应的分块熵中被忽略，而在表示中显示出显著的变化在镜头转换的时候。我们开发了一种新的方法，用于我们的我们的经验表明，HMMToC是更准确的比以前的（非分层）的方法在获得的章节标题和标题的时间在生成的目录。2总体设计视频是多维时间序列信号V：T N h×w×c，其中T = 1不是离散时间点的集合，其中h、w和c是每个时间点的颜色通道的高度、宽度和数量。frame.通常，视频由许多镜头组成。镜头是一组时间上相邻的帧，其从不间断的相机捕获生成。镜头边界是视频信号连续体中的中断。我们的ToC生成算法包括三个关键步骤。(1) 分割和关键帧提取。第一步是识别镜头边界并将输入视频分割成多个镜头。从每个镜头内的多个帧中，我们选择代表性的(2) 信息提取。其次，我们从所选择的关键帧以及从视频的音频转录本获得文本信息和相关联的元数据(3) 目录生成。在最后一步中，使用先前提取的信息构建每个镜头的摘要，并且聚合所有摘要以创建分层ToC。在以下部分中，将详细描述这三个步骤3分割与关键帧提取在本节中，我们描述ToC生成方法的第一个关键步骤：镜头边界的识别和代表性关键帧的选择。3.1镜头边界检测基于两个相邻镜头之间的过渡类型，镜头边界（SB）可以大致分为两类：（1）突变，其中变化是突然的，以及（2）渐变，其中变化平稳地发生。后者具有子类别，诸如去溶剂化、淡入淡出、擦除等。[7]的文件。我们描述了我们的方法使用的框架Cotsaces等人。对于镜头边界检测[7]，包括三个步骤：(1) 视觉内容表示(2) 连续信号构造，以及(3) 镜头边界的分类。我们设计了一种新颖的内容表示，捕捉图像中的对象的形状的信息然后，我们在视频水平上应用一种新的方法来构建多个连续信号在几个时间分辨率来检测这两种类型的镜头转换。最后，对于分类，从初始的T1帧边界中选择SB，我们设计了一种自适应的方法来找到一个全局阈值。3.1.1视觉内容表示：视频内容中的主要变化是由于可能在前景或背景中的对象的颜色和形状变化。我们的新颖性在于形状表示，其对相邻帧之间的主要结构变化敏感，同时保持对由诸如运动、变形、照明条件等因素发生的细微变化的不变性。可以通过帧的边缘图像来捕获形状信息。通常，为了更快的计算，Canny边缘检测算法用于获得二值边缘图Ec。然而，Ec对对象的小变化敏感。为了获得不变性，我们以分片方式计算Ec的熵。表示为从Ec提取的面片的集合，S（i）=−pilo g（pi）+pilo g（pi）1≤i≤|P |（一）是第i个补丁的熵，其中pi和pi是该补丁中0s和1为了进一步使逐块熵特征S更鲁棒，我们使用重叠块。图1示出了S对Ec中的细微变化的不变性，同时对形状的显著变化敏感该过程可以被解释为在边缘图上执行的池化操作基于边缘的方法先前已在文献[15，29]中使用，但未在形状表示的上下文中使用我们通过用色调和饱和度值的二维（2d）直方图H来表示颜色来捕获颜色的变化，如[3]中所使用的。··跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂269--∪····--[不0到i=1 Hl（i）−Hl{sb1，· · ·，sbns}，其中ns是镜头边界Hr（i）−Hrσ（H，H）=1 .一、00的情况。80的情况。60的情况。40的情况。20的情况。0二一六○ ○二一八○ ○2200022200224002260022800吨图2：视频UGS01.mpg的一部分连续信号;从TRECVID数据集获得地面实况标签s0（t）和sm（t）之间的差异是何时以及多久发生逐渐过渡的明确指示。这通过将地面实况平滑边界（绿色）与预测边界（蓝色）并置来验证。3.1.2连续信号构造：我们将一对帧编号（l，r）之间的边界表示为b。首先，有T1边界。两个相邻边界bl=（ll，rl）和b2=（l2，r2），使得l2=rl，可以合并以形成另一边界b=blb2=（ll，r2）。为了检测特定的b是否表示镜头转换，我们计算一个被设计为以捕捉其L帧和R帧之间的相似性μ（b）=σc（Hl，Hr）×σs（Sl，Sr），（2）其中σc和σs分别是颜色和形状特征的相似性度量。我们对σs使用余弦相似性。对于σc，我们使用[3]中建议的度量，即互相关为了检测剪切，首先我们通过使用K最近邻算法将s0（t）的值量化成K个聚类，c1c2cK<<然后我们选择一个特定的ck作为阈值，使得从ck到ck+1的成员数显著增加。门槛后将s0（t）与ck相乘并获得二进制信号，以精确定位剪切镜头边界，我们对其执行行程编码1的游程的起点和终点被分类为镜头边界的对应的l为了检测渐变，我们对d（t）=1−（s0（t）−sm（t））（5），与s0（t）相同。在巩固获得的边界.N.Σ¯Σ根据s0（t）和d（t），我们将镜头边界的集合表示为、clr，的。N.Σ2。N.Σ2检测到的，并且sb=（l，r），其中l和r是检测的开始和结束。其中N是2d直方图中的总箱数，H是平均值。我们引入了一个多分辨率的方法来构建信号的视频，这将是有用的检测突然和逐渐过渡。在每个边界点bt，1≤t≤T−1，我们计算多个合并边界的测度bd，0≤d≤w，基于该方法的检测的特定示例（w=fps=30且K=5），其清楚地说明s0（t）sm（t）的大值对于检测平滑转变确实是有用的。3.2镜头关键帧提取使得D不以避免处理一个镜头中的所有帧，这可能是时间消耗和不必要的，我们确定代表性的关键帧bd=bt+i=（lt−d，rt+d），（3）i=−d在每一个确定的镜头。在删除冗余信息时，选择不得删除有用信息。在教育视频的背景下，如果教师打算传达信息-其中w是窗口大小。合并所有µ（bd），我们表示在视觉上，镜头中涉及最少的部分w+1维信号为s（t）不.经验表明牵张可以假定包含我们的关键帧。在gen-在文献中，例如 [13] ，通过适当地阈值化 s0 （ t ） =μ（bt），这是一种单分辨率方法，可以以高精度和召回率检测到切换，即突然转换我们利用s（t）中可用的额外信息构建另一个信号通常，这些干扰来自于场景或相机中的对象的运动。我们设计了一种新的方法来找到一个镜头中包含最少干扰的静止部分我们首先构造时间序列信号i（t），其是帧V（t）的边缘图Ec的熵。这就像等式1，其中整个Ec是sm（t）=min≤d ≤wsd（t）（4）被认为是一个补丁。i（t）的构造受到[25]的启发。对于固定区域的划分，我们应用两个水平的其以与s0（t）用于切割类似的方式指示逐渐过渡。这在图2中示出。3.1.3镜头边界的分类：s（t）可以采用的值的范围对于不同的视频是不同的。因此，阈值为将i（t）转换为分段常数信号的近似。对i（t）的值使用MeanShift聚类算法[6]以得到聚类中心C={cl，· · ·，ck}。然后我们近似i（t）i~（t）=argmin|ci−i（t）|.（六）分类边界是否是SB必须是自适应的~ci∈C决定了在我们的方法中，我们使用基于聚类的技术来选择阈值。虽然i（t）是分段的恒定信号，但由于所涉及的动态性，即使在一个镜头内，它也会变得高度抖动，因为可以s0（t）sm（t）地面实况平滑地面实况剪辑检测到某人LRi=1 Hl（i）−Hli=1 Hr（i）−Hr相应的运行时间为1秒。跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂270..Ii（t）=我{}−i|我我我|Iii1000000（|我我|、|Ii+1|）0的情况。260的情况。250的情况。240的情况。230的情况。220的情况。21i（ t）i~（ t）i¯（ t）100−10个-20-30aB0的情况。200的情况。19510005200053000540005500056000不C d图3：从教育视频中提取的镜头的整个跨度的信号i（t）的非平滑性指示镜头内缩放部分示出从i~（t）去除抖动。可以在图3中看到。这些变化主要是由于i（t）中缺乏单调性。我们开发了信号平滑操作，并将其应用于i~（t）。对于第二级近似，以消除假抖动。有噪声的分段常数信号i~（t）可以表示为npi~（t）= αiIi（t）（7）i=1其中，1，t∈Ii，（8）0，否则，其中，i是i~（t）中具有值αi的区间，Ii是该区间的指示符，np是i~（t）中分段恒定区间的总数。特别地，αi是聚类中心之一，使得与其他聚类中心相比，i（t）最接近它i~（t）中的抖动可以假设为一组时间上相邻的间隔与稳定间隔相比具有更小的长度。我们将期望的无噪声分段恒定信号表示为npi¯（t）= βiIi（t），（9）i=1其中，βis是通过求解以下优化问题而得到的参数：np图4：a）在输入图像上显示的OCR（绿色框）的输出;c）与OCR输出重叠的来自阈值化的掩模;4信息提取在我们的ToC生成方法的第二步骤中，我们从所有选择的关键帧和从视频的语音信号中提取文本信息。我们使用现有的光学字符识别（OCR）工具来提取视觉文本，但应用后我们假设音频转录是可用的或者可以从自动语音识别（ASR）系统获得获得视觉和音频文本的显著性信息4.1视觉文本抽取我们将视觉文本实体称为vText，其包括文本字符串（在图像帧中）以及其视觉显著性。4.1.1文本检测和识别：在这项工作中，我们使用一个商业上可用的OCR引擎，由微软Azure云计算的认知服务提供给定一个图像，该服务返回一组文本和相应的边界框。与任何自动OCR一样，对于低分辨率或内容丰富的图像，它会将一些非文本对象误读为文本。因此，为了进一步提高其精度，我们在OCR输出上使用了另一个过滤器这是通过训练全卷积网络（FCN）[17]以生成输入图像中的文本区域的热图（HM）来实现的，使得如果HM中的像素是β1*·· ·βn*=argmin。 1（αi−βi）2|我我|2如果是正数，则它属于文本区域。然后对HM进行二值化pβ1·· ·βnpi=1np−12为了产生文本的掩码区域，见图4。获得一个IM的文本映射的想法-+λ。（βi+1−βi），（10）i=1在[32]中引入了年龄该网络使用COCO-Text进行训练哪里是间隔的长度.公式10中的第二项用适当的平滑因子λ惩罚i¯（t）中的抖动，第一项将βis限制为稳定区间的原始值方程10的解可以以封闭形式找到。最后，通过将β*s改变为αi1，αi，αi+1中最接近的值，抖动区间与稳定区间合并。结果我们得到了所需的i¯（t）。这在图3中示出。最终信号i′（t）将具有比i~（t）显著更少的间隔数量，并且从这些间隔中的每一个间隔中，一个帧可以被被视为关键帧。关键帧的持续时间与掩模中的阳性区域显著重叠（85%），则相应的文本用于进一步处理;这也在图4中示出。4.1.2元数据和显著特征：vText的时间和持续时间是从提取它的关键帧继承的vText的显著特征是字体大小（边框的高度）、粗体和垂直位置。加粗值通过使用笔划宽度变换（SWT）[10]计算vText中每个字符的平均笔划宽度来获得。关键帧kf可以表示为一组vText。在一个镜头内，可能发生kfi∩kfi+1≠，即一些文本数据集[31]。如果从OCR引擎获得的边界框具有跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂271[SS图5：从（b）表示为具有标题、副标题和点的模板的关键帧（vText）中的文本单元（c）vText具有由所示的树表示的固有分层/依赖关系，并且由具有vText作为节点和指示依赖关系的有向边的有向树我们为视频中的每个镜头构建这样的可以在下一个关键帧中重新出现例如，在典型的幻灯片放映中，项目符号点一个接一个地出现。为了避免在管道中处理重复的文本，我们将一个镜头中的所有kf聚合为nk=kfi，（11）i=1其中，nk是该镜头中的KF的数量，使得最终集合中的每个vText唯一地表示视觉文本。而agglom- erating，两个vTexts被认为是相同的，如果他们的显着特点是相似的，文本匹配。如果发现两个vText相同，则选取其中之一，并修改元数据以考虑两者。最后，在文本信息方面，视频可以表示为V={Si; 1≤i≤ns}（12）4.2音频文本提取音频中的口语文本用韵律特征和元数据增强，一起由aText表示。为口语单词，音高作为韵律特征，其捕获语音中的语调和重音[11]。我们使用公开可用的工具[12]进行音高提取。5目录生成在本节中，我们描述了如何将从所选择的关键帧提取的文本和相关联的元数据以及所识别的镜头一起用于创建视频的内容表（ToC）的最后步骤ToC生成可以被看作是一个提取摘要问题。提取摘要问题已经被公式化为组合优化问题，如最大边缘相关性[5]、背包问题或最大覆盖问题[30]。这样的公式化导致缺乏逻辑连贯性的摘要，因为被摘要的文本单元（单词或短语）之间的依赖关系被忽略。为了生成连贯的摘要[16]，提出了一种考虑话语关系的单文档摘要方法，即文档中文本单元之间的逻辑连接他们建立了一个修辞结构理论话语树，推断的依赖关系，并采取了树修剪的方法，以总结制定它作为一个树背包问题（TKP）。我们的输入文本是从视频中提取的，而不是文本源，我们的方法，灵感来自他们的方法，是新颖的技术推断依赖关系的多模态，时间依赖的信息，并在选择一个适当的成本函数制定TKP。我们的方法包括三个步骤：(1) 镜头级别树构造。创建镜头中信息的分层表示。(2) 射击的聚集。相似的镜头被聚集以创建整个视频的分层表示作为单个树。(3) 摘要/ToC生成。选择一个最好的子树代表总结这个视频制定为一个树背包问题。在下文中，我们将分别描述这三个步骤。5.1镜头级别树构造典型的基于幻灯片的教育视频的镜头包含关键帧，其vText固有地共享依赖关系。例如，在图5中，可以认为vText2、3、4依赖于vText1，即vText1是vTexts 2、3、4的父级类似地，vText2、3、4分别是vText5、6、7的父因此，镜头可以被表示为树，该树捕获从vText的元数据导出的这些依赖关系。图5示出了示例镜头和对应的树表示。以下是构建镜头级别树表示所涉及的步骤(1) 构建图G，其中vText作为顶点，并且边表示vText之间的依赖关系的强度。依赖关系d的强度使用对应的显著性得分垂直位置（vl）和粗体（b）来计算，其用作关键帧中的vText之间的依赖关系的代理（等式13）。关键帧内的vText的vl和b的差异表示它们之间在如图5所示的用于典型的基于幻灯片的教育视频的层次结构中的距离。等式13中的λ是跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂272--S SSS SS S我J我J图6：表示整个视频的单个树T_a通过镜头级树T_i的自下而上聚集来生成。此插图总共包含4个快照（快照4有两个关键帧，其他快照各有1个关键帧）。T1T4是镜头级别树. 首先T2和T3凝聚成T2. 3作为镜头3四是关于同一主题。T1、T2. 3、T4树T1和T2。3聚集成T1。从T2开始23个。3是对T1中主题的阐述。最后是T1。23和T4聚集成单个树T1。23岁图4表示视频中的vText控制要给予Vl和b中的差异的重要性（权重）的分数。图7：从表示视频的概要的Ta中选择最佳子树T*的步骤被公式化为树背包问题，其中选择最佳子树T*以最大化效用并约束到ToCL的期望最大长度。该表示出了如何利用不同的L值来生成具有最优层次信息的ToC。射击（例如（1）可以是前一个主题的阐述）或可以不是（例如，（一个新的话题）。因此，一组相邻镜头可以被聚集到单个分层表示，即通过以保留节点/vText之间的依赖关系的方式合并组成镜头级别树来生成树。这些聚集的镜头级树可以以自下而上的方式进一步聚集，以生成表示整个视频的单个树图6示出了该过程。该方法本质上是具有附加约束的分层聚类，该附加约束是仅时间上相邻的镜头可以被合并，以及用于合并镜头级别树的附加逻辑公司现采用国际[ 27 ]第27章：你是我的女人d（vTexti，vTextj）=λ*[vTextvl-vTextvl]+（十三）形成V（S）和V（S）之间的距离度量（ds）（1−λ）*[vTextb−vTextb]拍摄. 因此，重复以下两个步骤，直到单个获得凝聚的树Ta(2) 图G的最小生成树T′是在对边权取反后由图G构造的结果T’将是具有最大权重的树，或者换句话说，具有最大依赖关系强度的树。(3) 以效用最高的vText为根，通过对T′的广度优先遍历（BFT）构造有根镜头级有向依赖树T的实用程序u使用如等式14中的对应显著性分数来计算层级中的vText。遵循与等式13类似的直觉，我们认为具有较高垂直位置（vl）和粗体（b）的vText在概括关键帧的内容时更有用。此外，我们认为vText在由f（f）捕获的镜头的关键帧中重复时更有用。u（vText）=[λ*vTextb+（1-λ）*vTextvl]（14）* （1+loд（vTextf））5.2弹丸团聚典型的教育视频的镜头在时间上展开。检测到的新镜头的内容可以与先前镜头的内容密切相关(1) 构造每两个相邻镜头i，j之间的距离ds（i，j）的最小堆。(2) 弹出具有最小ds的相邻快照（i，j）和合并对应的镜头级别树Ti和Tj，以获得合并镜头i j和相关联的合并镜头级别树Tij。镜头级别树Ti和Ti，使得i>j，合并如下：如果Ti和T j的级别1处的节点重叠，则通过添加具有最小ds（Ti，子树（T j））的子树（Tj）作为Ti的重叠节点的子节点来合并它们。否则，通过使Ti、Tj成为伪根节点r的兄弟节点和子节点来合并它们。5.3总结/ToC生成生成期望长度L（即，vText的数量）可以被公式化为树背包组合优化问题[16] -其中从Ta中选择最优有根子树T*以最大化汇总效用函数F（T）。给定子树的摘要效用是由对应显著性分数捕获的vText的此外，vText的效用基于其来自音频元数据的音高和对应节点在音频元数据中的深度被重新加权。跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂273N∈.≥方法精度召回F-scorePmPsRm俄.西FmFsMMToC0.560.30.130.080.210.12HMMToC0.740.230.830.170.760.20图8：可以向用户呈现分层内容表，以促进用户可以点击ToC条目以到达视频中的对应部分。等级制度如等式15中所示，具有较高间距（p）且在较小深度处的vText具有较高效用值。F（T）=.u（vTexti）*p（vTexti）xi，（15）表1：ToC标题的实验结果：精确度（P）、召回率（R）和F分数的平均值（m）和标准差（s）(F)数据集中的所有视频方法精度召回F-scorePmPsRm俄.西FmFsMMToC0.830.220.210.140.310.14HMMToC0.860.230.920.1810.850.21表2：关于ToC的定时的实验结果：数据集中所有视频的精确度（P）、召回率（R）和F分数（F）的平均值（m）和标准差（s）。[22 ]第20段。这些方法不是专门为基于幻灯片的i=1xi=. 第一个0深度（vTexti）如果vTexti T否则教育视频，而不是用于教学电影，并且基于电影表达功能。一个相关的系统Talkminer是一个创建可搜索文本索引的讲座Webcase搜索引擎并且N是树T中的vText或节点的数量。vText% s与所选择的最优子树T* 的节点相对应的子树T * 形成概要。可以通过求解ILP问题16来执行选择。给定汇总预算L，可以在多项式时间[ 20 ]中找到的ILP问题解决方案将是形成有根子树的vText的最佳集合，从而产生分层ToC。图7示出了ILP（等式16）如何从聚集树生成分层ToCT1. 23岁图4示出了图6中针对不同的汇总长度L的示例性实施例。T*=maxF（T）不但不分割视频或创建ToC [1]。教育视频的ToC生成最近在[4] 他们的算法MMToC使用了这三种算法的特征– text, speech and visual – modalities was shown to outperformprevious topic model–based7实验我们测试的性能，我们的ToC生成方法（HMMToC）相对于两个方面的ToC，即。定时和标题，与先前最好的ToC生成方法MMToC相比。S. t.Nxi

下载后可阅读完整内容，剩余1页未读，立即下载