系统从视频记录中提取口语并将其转换为可搜索的文本

发布时间：2024-05-27 16:16:43来源：

韩国的一个团队开发了一种搜索视频内容的新方法。该系统在《国际计算机视觉与机器人学杂志》上进行了描述，它从视频记录中提取口语，将其转换为文本，然后使该文本可搜索。重要的是，该系统不依赖于嵌入的关键字或与视频内容关联的精选标签或主题标签。

这种方法显然依赖于与用户可能希望搜索的视频场景相关的项目的对话或口头评论。当然，如果视频已经内置了字幕，那么这是多余的。尽管如此，对于希望搜索数据库、流媒体服务和互联网其他地方的数百万小时视频的用户来说，它将是一种福音，并可用于帮助对视频进行分类。

首尔汉城大学计算机工程学院的KitaeHwang、InHwanJung和JaeMoonLee开发了一款适用于相应智能手机的Android应用。但值得注意的是，至少还有一款同名应用，因此如果这款应用在GooglePlay安卓应用商店中上架，可能需要改名。

这款新应用的工作原理是，使用FFmpeg代码从视频中提取音频，并以10秒为增量将其转换为文本。该团队解释说，这为视频创建了一个可搜索的时间线。然后，先进的语音识别技术会生成这些音频片段的转录，这些转录会在视频时间线上编入索引。

对于20分钟的视频，该过程只需两到三分钟即可完成，并在视频播放时在后台运行。该团队指出，用户可以搜索特定术语并查找视频中的所有提及内容。

该应用将应用于教育、新闻分析和其他需要快速访问特定信息的信息密集型视频。例如，查看讲座录音的学生或搜索采访中特定陈述的可以使用此应用。在许多其他场景中，以这种方式搜索视频会很有用。

免责声明：本答案或内容为用户上传，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如遇侵权请及时联系本站删除。