来自沈阳理工大学、中国科学院大学以及中科院的研究团队在《小型微型计算机系统》发布名为《互联网新闻敏感信息识别方法的研究》的论文,声称可以更有效地识别和过滤敏感信息。
在中国,互联网受到严格管制,被禁止的话题范围也相当广泛,包括色情、邪教、毒品、枪支、恐怖主义以及对共产党和领导人的攻击等。但对于计算机而言,汉语作为世界上最复杂的语言之一,经常会造成审查的虚警或遗漏。而据该文章的第一作者、沈阳理工大学的李姝副教授称,该团队开发的技术拥有包括敏感词和其不断的变化形式的词典,可以跟上中国快速发展的网络语言。中国许多网民通过使用谐音或者在字符间添加连接符来规避审查,而李姝称其该技术可以在搜索隐藏在上下文中的非法内容,提高识别能力。
根据论文,该团队开发的Mer-Hi-Bert是基于Google开发的Bert的改进,从而解决了原始Bert不适合新闻长文本任务的问题。文中的实验部分将敏感词分为反动、色情、暴力以及违禁四类,识别准确率超过91%。Google没有回复记者的置评请求。
南华早报
 
 
Back to Top