CAC反垃圾分类系统是Coremail的后端反垃圾引擎。垃圾邮件经过前端反垃圾GT网关引擎评分判断之后,大部分的垃圾邮件都被过滤到垃圾箱,正常邮件投递到收件箱,少部分邮件(在一定分值范围内)进入了可疑邮件队列。进入队列的邮件再经过CAC邮件分类系统过滤,将邮件分类成:正常邮件、订阅邮件、广告邮件、垃圾邮件四大类型。其中正常邮件和订阅邮件将会投递到用户的收件箱,而广告邮件和垃圾邮件将会投递到用户的垃圾箱。
反垃圾邮件服务运营中心反垃圾分类系统,对可疑邮件进行智能分析,并进行人工判定。 在反垃圾GT网关的基础上,进一步降低了邮件的漏判率。
n基本原理如下图所示:
n判定过程:
n邮件进入CAC分类系统后,先将相似的邮件聚类到一起,然后进入分类引擎对邮件进行分类,将邮件标记为正常邮件,订阅邮件,广告邮件,垃圾邮件四者之一,并将邮件标记和分类结果置信度返回给客户端,由客户端做后续的处理,对于置信度小于指定区间或重复次数过多的邮件,将会要求人工确认此邮件的分类。
n学习过程:
n反垃圾邮件服务运营中心邮件分类系统后台会定时启动学习模块,学习过去n天的分类系统处理结果,来不断的进化和处理新垃圾邮件类型。
反垃圾邮件服务运营中心(CAC)应用几十种世界先进的反垃圾技术,根据反垃圾技术潮流的发展,不断对技术进行创新,为客户提供独特而实用的反垃圾运营服务。
n国内最好的中文垃圾邮件过滤算法
n传统的文件比较方法,提取最重要的特征分词,会导致某些次重要的特征分词被丢弃,会影响分类器的准确性。CAC邮件分类系统对于中文分词不依赖中文字典,而是通过排列组合穷举所有可能的分词形式,然后通过统计来确认哪些分词比较重要,并针对html文档和html tag进行特殊处理。
n邮件评分技术
n反垃圾邮件服务运营中心(CAC)使用多条评判垃圾邮件的规则,对邮件的发信IP,发信人地址,信件内容等部分进行评分。将总分与系统及用户设置的阈值作比较,决定邮件是否评为垃圾邮件。使用邮件评分技术使得反垃圾邮件系统可以更灵活地组合各种过滤规则,系统管理员可以设定划分垃圾邮件的系统过滤阈值参数,从而动态调整系统对垃圾邮件的过滤强度。
n二次学习机制
n反垃圾邮件服务运营中心(CAC)聚类服务器使用半人工的分类器对未知邮件样本进行分类,SVM生成第一次分类结果之后,将所有学习样本都投入分类器,抽取部分点让人工再做一次纠偏,最终将纠偏之后的信息传递给分类器进行训练,再学习一次,由此形成一个正向循环,让学习结果准确性提高。
[1]反垃圾邮件服务运营中心(CAC)为超过50个VIP客户、140个IP提供RBL监控和移除处理服务。CAC监控的RBL组织包括9个国际着名反垃圾组织,第一时间监控用户IP是否被列入RBL,并帮助客户提交相关信息,申请移除。
n截至2012年,CAC反垃圾中心已为70多个客户移除RBL共208个。
针对企业的邮件类型,CAC可提供个性化的反垃圾算分服务。经过算分后,能获取到某一企业内邮件的特征,从而调整判断规则的分值,有效地解决邮件误判和漏判的问题。