欢迎光临
我们一直在努力
您的位置:首页>新闻 >

这个人工智能系统会警告你在线评论中的剧透

研究人员开发了一种基于AI的系统,可以在书籍和电视节目的在线评论中找出剧透。

“扰乱者在互联网上无处不在,在社交媒体上非常普遍。作为互联网用户,我们了解破坏者的痛苦,以及他们如何破坏一个人的经历,“该论文的一位高级作者Ndapa Nakashole说道。

一些网站允许人们用标签手动标记他们的帖子,这些标签用作“扰乱前方”警告标志。但这并不总是发生。因此,在计算语言学协会上发表这项研究的研究人员希望开发一种由神经网络驱动的人工智能工具,以自动检测剧透。他们将工具命名为SpoilerNet。

在理论层面上,研究人员希望更好地理解人们如何编写剧透,以及什么样的语言模式和常识将句子标记为扰流。

研究人员开发的工具可用于构建浏览器扩展,以保护人们免受破坏者的攻击。为了训练和测试SpoilerNet,研究人员一直在寻找包含剧透的大型句子数据集。扰流板警报!他们没有找到。因此,他们通过收集超过130万本由书评人使用剧透标签注释的书评来创建自己的书。

标签包含包含剧透的句子,并将其隐藏在文本中的“视图扰流”链接后面。这些评论来自Goodreads,这是一个社交网站,允许人们跟踪他们阅读的内容,并与其他读者分享想法和评论。

“据我们所知,这是第一个带有扰码器注释的数据集,具有如此细粒度的粒度,”该论文的第一作者孟婷婉说。

研究人员发现,在评论的后半部分,扰流句往往会聚集在一起。但是他们还发现不同的用户对标签扰流器有不同的标准,并且需要仔细校准神经网络以将其考虑在内。

另外,相同的单词在不同的上下文中可能具有不同的语义含义。例如,“绿色”只是一本书评中的颜色,但它可以是重要角色的名称和另一本书中破坏者的信号。Wan说,识别和理解这些差异具有挑战性。

研究人员对Goodreads上80%的评论进行了SpoilerNet培训,通过几层神经网络运行文本。该系统可以检测到扰流板的准确率为89%至92%。

他们还在一个包含超过16,000个大约880个电视节目单句评论的数据集上运行了SpoilerNet。检测扰流板的工具的准确率为74%至80%。

大多数错误来自于系统被通常加载和启发的词语分散注意力,例如谋杀或被杀。

展望未来,Goodreads数据集可以作为一种强大的工具来训练算法,以检测不同类型内容中的剧透,所述推文包含剧透。

免责声明:本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。