来自沈阳理工大学、中国科学院大学以及中科院的研究团队在《小型微型计算机系统》发布名为《互联网新闻敏感信息识别方法的研究》的论文，声称可以更有效地识别和过滤敏感信息

来自沈阳理工大学、中国科学院大学以及中科院的研究团队在《小型微型计算机系统》发布名为《互联网新闻敏感信息识别方法的研究》的论文，声称可以更有效地识别和过滤敏感信息。
在中国，互联网受到严格管制，被禁止的话题范围也相当广泛，包括色情、邪教、毒品、枪支、恐怖主义以及对共产党和领导人的攻击等。但对于计算机而言，汉语作为世界上最复杂的语言之一，经常会造成审查的虚警或遗漏。而据该文章的第一作者、沈阳理工大学的李姝副教授称，该团队开发的技术拥有包括敏感词和其不断的变化形式的词典，可以跟上中国快速发展的网络语言。中国许多网民通过使用谐音或者在字符间添加连接符来规避审查，而李姝称其该技术可以在搜索隐藏在上下文中的非法内容，提高识别能力。
根据论文，该团队开发的Mer-Hi-Bert是基于Google开发的Bert的改进，从而解决了原始Bert不适合新闻长文本任务的问题。文中的实验部分将敏感词分为反动、色情、暴力以及违禁四类，识别准确率超过91%。Google没有回复记者的置评请求。
（南华早报）