计算机病毒百科的“统计”专栏上线

时间:2023年09月08日    来源:安天


本期为计算机病毒百科专题第二期: 新增计算机病毒百科的统计专栏。

2023年9月8日,计算机病毒百科(virusview.net)的统计专栏正式上线,在第一批上线的统计图表中,我们分别按照恶意代码家族的维度、变种的维度,以及有效计算机病毒样本的维度,提供恶意代码8个基础分类的阶段性全量统计数据、以及2014年以来的历年增量数据和年度总量数据。后续,我们还会从不同的维度提供按照其他统计方式的其他统计数据和图表。我们进行相关统计工作的基础是,始终坚持严格按照恶意代码的8个基础分类进行基于互斥原则的样本分类、始终坚持投入人力与算力资源进行恶意代码的同源性分析判断、始终坚守以“CARO公约”为基础的结构化命名并尊重先发厂商的家族命名权、始终执行严谨的“分类前缀/环境前缀.家族名.变种号<核心行为标签>”为结构的命名规则、始终坚持将全量样本进行元数据化和知识转化,这使我们能够在作为一个反病毒引擎团队所必须的特征工程基础上,持续积累了可以支撑恶意代码知识工程的形式化基础。

恶意代码种类发展变化图

首先需要说明,我们的年度统计从2014年开始,而不是从安天开始创业研发反病毒引擎的2000年开始,是由于安天赛博超脑的基础原型T系统,是从2014年开始上线运行的。我们现行的分类和命名结构,也是2014年开始执行的。T系统前身的VX Platform是从2004年开始运行,到2014年直接被T系统取代,由于两个系统所执行的分类命名标准是有差异的,因此,我们在2014年初只导入了存量样本、特征和必要的标签信息,并没有导入历史分析的轨迹数据和历史的年份统计数据。但回头来看,恶意代码整体的分类分布的重大变化以及恶意代码的增长趋势,由2000年前后的慢速线性增长转化为一次几何式的膨胀,是发生在2006年左右。而2014年之后,则是在新的大基数下进入一个新的线性增长期。缺失了2000年至2014年的统计,不能不说是一个遗憾。因此,我们在统计专栏中提供了一份2000年安天所拥有的病毒样本库的统计情况,可以与当前的情况作一个对比。

恶意代码整体分类分布图

其次,在整个恶意代码分类命名的知识工程中,分类标准基于MECE原则(相互独立、完全穷尽),是可以基于一个科学式逻辑来执行的;在环境前缀上,同样基于样本最终形态格式是可以精确区分的;但在家族命名上,则面临很多需要平衡和妥协的选项。先发者命名优先原则,形成了反病毒厂商之间很好的尊重,也减少了在重大恶意代码事件中命名不同对安全运营人员和公众的信息干扰,但这也导致每一个反病毒引擎的研发团队都无法严格的执行自身的家族命名规则。与此同时,反病毒团队拥有的算力资源和人力资源情况,也会制约同源分析的质量,特别是面对一个百亿量级的Hash的整体样本空间,以及每日超过200万新的Hash的样本增量,坚持全量样本的同源性关联分析,是需要大量的算力与人力投入的。这也使安天继续要维护一套完全独立的同源分析机制,与此同时又需要在家族命名输出上兼顾反病毒的业界共识。

此外,我们依然坚持有效样本统计原则,以减少统计数据对于趋势判断的干扰。早在DOS感染式病毒时代,对于每一种感染式病毒(变种)需要在样本库中留存多少个样本,是有非常严格的技术规范的,包括针对DOS_COM宿主大小、是否同时感染DOS_COM和DOS_MZ、是不是变形病毒等情况,都有具体的数量规范。一方面,避免因样本数量留存不足,影响特征码的提取和清除模块的编写质量;另一方面,也约束由于感染式病毒每感染一个文件就会带来一个新Hash的样本,导致对分析和统计工作的干扰。由于Win32系列的操作系统平台默认有大量的PE文件,一些Win32感染式病毒会感染几乎所有的PE文件,特别是在云查杀的机制上,由于这些感染后的Hash必然是新的,导致了反病毒厂商的样本库中有大量的类似的样本文件,而以互联网安全模式运营的团队,由于云查杀的策略和提交策略相对更宽泛,类似情况可能更为明显。还有,针对木马免杀和在200X年就已经出现的Poly By Server(投放端变形)技术,也使同一个变种的恶意代码在每一次投放中Hash均不同。因此,如果基于全量样本作为统计度量衡,则很容易得出感染式病毒是主流的错误结论或者误判某种木马的风险程度。所以,我们在原有DOS感染式样本规范的有效样本数规则基础上,完善了包括PE/ELF/Macro等感染式样本的有效样本统计原则,并依托安天AVL SDK引擎的脱壳、虚拟执行和预处理能力,以及赛博超脑的其他同源向量分析方法,对类似Poly By Server、变形壳等产生的样本,建立了有效性样本的统计修正方法。

GPU算力的增强,有效的弥补了我们以密集的CPU核为主的分析体系,大模型方法的应用也为我们改善上面的工作以及对赛博超脑的升级,起到了很大的促进作用。依托我们持续的特征工程和推进工作,我们后续会按照产业界、研究者和公众对于恶意代码和威胁统计的相关需求,开放更多的统计信息。当然,我们推动网络安全建立公共知识体系的路程终将是漫长的,期待有更多的同路人发现问题、提出需求,和我们一起推动。

对我们希望开放相关统计信息,也包括对病毒百科的改善意见,欢迎大家发送邮件到ti_support@antiy.cn。当然,如果你的朋友圈里有安天人,那就直接把你的需要转发给他(她)。

安天研究院计算机病毒百科兴趣小组
2023年9月08日