野生动物保护前线的活动人士经常关注新闻报道,了解可能威胁濒危动物的基础设施项目的信息。但这种监控需要工作人员投入大量时间,而实地组织无法抽出时间。
卡内基梅隆大学的研究人员与世界自然基金会(WWF)合作开发了一种监测和识别与环境保护相关的媒体文章的工具,帮助减轻了这一负担。
卡内基梅隆大学计算机学院软件与社会系统系(S3D)副教授方飞表示,世界自然基金会印度分会每周需要两名全职工作人员来监测新闻并识别与野生动物保护相关的问题。
卡内基梅隆大学的研究人员与世界自然基金会合作开发了媒体监控工具,使工作人员可以花更少的时间分析有关基础设施和环境保护的新闻,而花更多的时间倡导和保护野生动物。
这些工具已扩展到包括印地语和尼泊尔语等资源匮乏的语言的媒体监测,以收集野生动物特别濒危的社区的新闻。
方说:“我们正在尝试及时为多种语言识别与环境保护相关的新闻文章,特别是对于那些我们没有大量标签数据的低资源语言。”
2022年,方在英国、印度和尼泊尔部署了她的第一个模型NewsPanda。该工具包每周都会自动检测和分析用英文撰写的描述保护区威胁的新闻和政府文章。
经过预训练的大型语言模型(LLM)将文章归类为与保护和基础设施相关的文章。NewsPanda团队与尼泊尔和印度世界自然基金会合作创建了他们的数据集,标记了1,000多篇文章。除了抓取和分析文章外,NewsPanda还将它们放在地图上,并创建了一个通过社交媒体分享文章的机器人。
使用NewsPanda的世界自然基金会工作人员询问方女士,她的团队是否可以更新此工具,使其适用于印地语和尼泊尔语等当地语言的文章。但这些组织的工作人员不想再次标记1,000篇文章来创建这些语言所需的训练数据。
方女士表示,她的研究团队需要找到一种更有效的方式来协助监控当地媒体。她联系了卡内基梅隆大学语言技术研究所(LTI)的助理教授李蕾,她从事多语言自然语言处理方面的工作。
李说:“就目前的文本分类和信息提取技术而言,自然语言处理工具对于资源丰富的语言(如英语、西班牙语、德语、法语和中文)非常有效,因为你需要标记数据来进行监督训练。”
“一旦你想添加一种新语言,而你又没有注释数据,那么它就无法很好地工作。这正是我们试图解决的问题。我们试图理解这些文章的文本,并在没有太多人工标记数据的情况下用另一种语言提取最重要的信息。”
世界自然基金会尼泊尔分会同意帮助研究团队开发这一工具。最初,卡内基梅隆大学的研究团队尝试使用市面上的机器翻译工具,但这些工具无法将英语翻译成尼泊尔语,翻译质量并不高。因此,研究人员创建了NewsSerow,这是一个新闻监控系统,使用法学硕士学位对尼泊尔语文章进行总结和分类。该工具以尼泊尔的一种动物羚羊命名。
方说,创建NewsSerow所用的技术并不新颖,但这些工具的组合方式却非常强大。NewsSerow有三个模块:总结、分类和反思。总结使用GPT-3.5turbo(一种类似于OpenAI的ChatGPT的LLM),用特定语言(如尼泊尔语)用三句话总结文章中的信息。
然后,使用文章的标题和摘要,将文本分类为与保护相关或不相关,并对此分类进行解释。研究人员使用法学硕士中的情境学习来开发分类模块。
他们提供了10个示例,其中包括标题、摘要、分类标签以及该领域专家提供的文章说明。这一流程意味着尼泊尔世界自然基金会的工作人员无需标记超过1,000篇文章,只需标记10篇即可。
最后,NewsSerow会进行反射,再次检查该工具的相关性分类是否准确。反射模块是可选的,研究人员添加它是为了减少误报的数量。
研究人员发现,NewsSerow的表现与其他需要更多训练数据的新闻摘要和分类模型相当。
“这正是我们想要实现的目标。我们希望我们为NewsSerow构建的工作流程可以用于其他资源匮乏的语言,”Fang说道,“当你想为一种新语言建立工具时,这很困难,但要求领域专家为我们标记300、500或1,000篇文章。让他们标记10篇文章并不难。这是可行的。”
研究人员正在与世界自然基金会印度分会合作,扩展该工具以用于印地语和其他语言的媒体监测,并扩展到社交媒体等其他来源。
详细介绍该系统的论文可在arXiv预印本服务器上查阅。