【摘要】信息过滤作为解决网络信息超载问题而发展起来的技术与方法,目前主要集中运用于不良信息过滤和获取与用户需求密切相关的信息。本文对信息过滤技术的分类及应用进行了研究探讨。 【关键词】信息过滤;技术;应用
信息过滤(information filtering,if)作为解决网络信息超载问题而发展起来的技术与方法,最初运用于新闻和过滤,后来被用于各类信息源过滤。目前国内外关于信息过滤的研究主要集中在两个方面:一是不良信息过滤,主要目的在于维护网络信息的健康,净化网络环境;二是获取相关信息过滤,过滤掉无用或不相关的信息,主要目的在于获取与用户需求密切相关的信息。
本文着重探讨网上不良信息的过滤,不良信息是一个主观的、相对的概念,同一信息相对于不同的用户、不同的监管者和不同的环境条件来说,可能会有不同的定位。我国自1996年以来,已经制定了20多个涉及互联网非法内容的法律文件。一般情况下,凡是违背社会主义精 神文明建设要求,违背中华民族优良文化传统与习惯,以及其他违背社会公德的各类文字、图片、音视频信息都可视为不良信息。
1.信息过滤技术的分类
目前国内外的各种不良信息过滤软件或系统,在网页信息鉴别上主要使用四种过滤技术,即基于因特网内容分级平台过滤(pics)、数据库过滤(ip库、url库)、关键词过滤以及基于内容理解的过滤。 1.1基于因特网内容分级平台过滤(pics)
为了保护用户免受网络不良信息的侵扰, w3c(world wide web consortium)于1995年8月组织当时因特网上的主导力量共同商讨制定一套技术规范,即因特网内容分级平台( platform for internet content selection,简称pics),它是一种分级过滤软件标准,为网上信息内容的标记、分级提供一个平台,使用户或组织能够根据各自认同的分级体系对网络内容进行分级,分级体系(rating system)规定了分级的类目、类目的级别和分级的标准。