澜砥大模型助力文件检测分析,有效提升应急处置效率(上)

时间:2025年09月11日

近日,安天在计算机病毒百科(https://virusview.net)更新发布了澜砥大模型辅助样本分析服务,对系统判定为黑的文件通过模型辅助输出详细分析结果,助力用户分析样本、生成YARA规则、开展应急处置等工作。为此,小编采访了安天澜砥大模型的技术骨干安全工程师“勇者”。

小编:勇者,您好!能不能先给大家介绍下当前大模型在恶意代码辅助分析方面能帮我们干些什么?

勇者:这是一个网安同业人员都在思考的问题。安天的反病毒引擎是已经运行二十多年的产业共性核心能力,支撑反病毒引擎持续升级的是我们研发分析团队和分析平台。一直以来我们坚持追求的就是人的经验和自动化分析的迭代,从而不断让自动化分析更高效、更精准。基于自动化流水线体系,来完成恶意代码的分析和反病毒引擎的运营升级工作。我们有意把这个黑箱打开,实现对“人”的赋能——增强安全人员的能力与效率。这个赋能中即包括使用安天引擎的生态伙伴、安天生态伙伴和安天自身产品的用户,更包括安天CERT的分析人员。

具体来说,这方面能做的挺多:比如当参谋辅助,提供参考检测结果、候选同源家族、检测依据的特征位置与内容,进而形成辅助决策方案并推测潜在结果;也能当任务代理,基于训练数据和上下文,根据人或系统的输入,自动或半自动调用传统能力完成分析、检测、响应这些工作,既缩短时间,又能提高人的效率、降低成本;作为分析助手也很实用,能减轻工程师处理专业数据时的心智负担,给他们提供那些不好传递的经验知识参考;此外还能作为“小模型的老师”,以自身能力为小模型提纯,结合边缘计算、办公终端、云上主机等不同环境,帮助小模型适配场景实现更好的威胁检测效果。说到底,大模型能拓宽人的能力边界,提高领域专家的能力上限,让他们决策更果断;同时也能缩小通用工程师和领域专家的差距,提升常态威胁分析响应的效率,就像人的 “外延” 一样,在人的决策下自动化执行任务,真正帮人把活儿干得更好、更快。

小编:从检测场景来看,安天的本地病毒库已经非常庞大了。使用大模型后是否可以取代原有的威胁检测技术?

勇者:大模型技术对威胁检测能力的提升将是空前的。但绝不是用了大模型,一抓就灵。恶意代码检测对抗是一个用户场景下的实战性问题。而不是一个学术上的分类、聚类、识别等的研究问题,从恶意代码对抗的历史上,所有试图简单用某个算法或模式取代精准的特征工程体系的尝试,都注定是失败的。恶意代码检测中,大规模特征工程体系是不可替代的,要考虑到检测的精准度以及检测效率。其次人工智能技术依赖于传统威胁检测技术所标注的数据,虽然大模型在威胁检测领域带来了显著进步,但不会完全取代原有的威胁检测技术,而是与之形成互补和增强的关系,可以理解为特征工程、数据标注工程之上的能力叠加。威胁检测更需要扎实的特征工程、知识工程积累作为基础。否则只是基于开源模型的简单迁移复用的方法,无法改造和开发新的模型,在实际应用中表现不好的原因,其本质原因是威胁分析、特征工程能力不足。安天在2004年就开始采用反馈神经网络模型、决策树等,应用于安天的后台自动化分析体系,经过多年不断的技术改进,淘汰了大量的看上去很美的算法,先后引入了SVM、CNN、随机森林、Transformer等相关算法和机制,进入平台体系。在引擎用也将特征检测体系和多种小模型算法结合。从而提升检测鲁棒性,提升攻击者绕过成本。

小编:安天为什么没有把大模型主要发力方向放到日志与事件分析,而是放在样本分析方向?

勇者:这确实是我们的一个战略性选择,主要基于两点核心思考:“术业专攻”和“深源知识”。安天二十多年的技术积累的核心在于对恶意代码的深度剖析与对抗,我们在样本分析领域拥有深厚的、体系化的知识沉淀和独特的专业优势。将大模型这一前沿技术首先应用于我们最擅长的领域,能够最快地形成技术突破,将我们的专业能力提升到一个新的高度,实现对高级威胁更精准、更自动化的鉴定和溯源。这是我们立足的根本,也是我们能为行业带来的独特价值。关于日志与事件分析,目前业界基于开源大模型进行应用探索几乎已经成为一个“必选动作”,门槛相对较低。然而,如果不能真正解决网络安全管理者的核心痛点——比如大幅降噪、精准告警、提升研判效率——那么简单的应用其价值是有限的。因此,我们的策略是:在日志与事件分析方面,我们选择沉下心来打磨产品,而不是急于进行市场宣传。我们相信,真正的价值在于为客户解决问题,而不仅仅是追赶技术热点。

小编:安天澜砥辅助分析服务中,是完全自主研发的,还是也借鉴了其他大模型?

勇者:关于“澜砥”的模型架构,我们可以这样理解,它并非一个单一的模型,而是一个有机协同的模型族体系。在这个体系中,不同的组件承担着不同的职责,并采用了最适合的技术路径。其中,最为核心的特征工程与支撑部分,这直接关系到我们对安全威胁的深度理解和分析能力,是由安天团队基于多年的安全知识积累完全自主实现的。这是我们能力的根本,确保了分析结果的准确性和专业性。而在需要大量通用知识辅助的文字生成与交互部分,为了提升开发效率并聚焦于我们的核心安全专长,我们选择了基于优秀的开源大模型进行构建和优化。我们的工作重点在于如何将这些开源能力与我们自主的安全模型深度结合,无缝地嵌入到分析研判的工作流中,最终为用户提供一体化的智能辅助体验。

小编:可以给我们详细介绍下澜砥大模型么?在目前市面上已有众多优秀大模型的背景下为何安天还要推出它?

勇者:澜砥大模型的全称是安天澜砥威胁分析垂直大模型,英文全称Virus Inspection Large Language Model,通常缩写为VILLM 。它是基于安天赛博超脑平台20余年积累的海量样本特征工程数据训练而成的AI模型,具备可用于不同需求场景的多形态的检测分析能力。之所以选择自研大模型,源于我们在初期探索中曾尝试借助开源模型构建辅助分析系统,但很快遇到明显瓶颈,开源模型严重受限于词表范围,在处理字节数据时存在大量Token浪费,上下文处理性能也难以满足恶意样本深度分析的实际需要。另外开源模型都是以自然语言处理为基础,无法理解二进制的输入。在综合评估多种开源方案后,安天最终决定依托自身丰富的执行体样本资源,聚焦二进制对象分析,突破Token与上下文长度的限制,自主研发面向威胁检测领域的生成式大模型。

模型

厂商

开源状态

最大上下文长度

对比值

DeepSeek   V3/R1

深度求索

开源

163,840

1.0

Qwen QwQ   32B

阿里

开源

40,960

0.25

Gemma3   27B

 谷歌

开源

131,072

0.8

Claude   3.7 Snonet

Anthropic

闭源

204,800

1.25

GPT-4.5   Preview

OpenAI

闭源

147,456

0.9

澜砥VILLM V2

安天

闭源

336,592,896

2054.4

相比较于DeepSeek、LLaMa和 GPT等主流大模型,澜砥大模型从设计之初就瞄准了一个非常具体但极其重要的需求——高效处理分析执行体文件。与绝大多数依赖自然语言语料训练的模型不同,我们重新设计了模型架构,使其能够直接理解二进制数据。最明显的一点是突破了上下文长度的限制。像GPT这类模型受词表限制,很难处理超长的二进制原始数据。而澜砥支持数百MB级别的大文件,相当于上亿Token的上下文。这使得我们在处理二进制文件时,性能比开源大模型提升了百倍甚至千倍。同时,我们借助安天赛博超脑在特征工程上的积累,实现了字节级、多维度特征的智能提取。模型不仅可以输出恶意代码的分类、家族、行为标签等,还能给出判定依据——具体到偏移量和字节内容。这一点极大地增强了结果的可信度,也帮助我们更有效地识别和排除模型可能产生的“幻觉”。

小编:能进一步讲一下澜砥大模型当年研发的历史背景以及未来愿景么?

勇者: “澜砥”是安天研究院的一个创新实验室,专注于为安全检测提供专用算力承载。实验室由安天创始人肖新光、联合创始人张栗伟和桑胜田共同发起,并于2021年初成立。澜砥实验室提出了“威胁检测单元”(TDU)的概念,并在2021年12月成功点亮了LD-4K安全算力原型芯片,以支持高算力需求的威胁检测。为有效赋能威胁分析和防御场景,缩短完成响应处置威胁所需的时间,安天澜砥实验室自主研发了澜砥大模型。24年9月,澜砥大模型在仅使用安天千分之一数据训练的情况下,在CNCERT联合多家单位举办的2024年人工智能技术赋能网络安全应用测试“恶意软件检测场景”中排名第二,我们对这个成绩并不是很满意,入选2024 网络安全“金帽子”年度大模型创新技术。25年7月,澜砥大模型入选中国网络安全产业联盟首批网络安全新技术名单。

关于未来愿景这部分,我们还是与我们基础的三大工程工作改进叠加:

特征工程的持续强化和改善还是我们最主要的方向,充分发挥大模型的优势,实现提取和挖掘更高质量的威胁检测特征以及相应的特征向量数据,应用于威胁检测和威胁追溯方向。

知识工程方面,我们要继续做好“计算机病毒分类知识百科全书”等网络安全公共知识的运营工作,结合我们对杀伤链、威胁行为框架等的研究构建覆盖攻击技术、防御策略等领域的高质量知识体系,确保大模型在推理过程中能够准确理解和运用专业知识。重点解决分析知识向分析人员与最终用户的传导问题,形成集威胁识别、分析研判、解读输出为一体的能力闭环,最终实现对抗升级与威胁认知的深度融合。

模型工程方向:我们的模型工程,并不是大模型的算法模型。而是在威胁建模、安全框架建模、设计建模中的一些将模型转化为形式化逻辑的工作。我们尝试让这些安全模型的可计算性,从而为大模型提供一种特殊的语料。

我们希望通过以上三个方向的协同推进,构建持续演进的内生动力,使澜砥大模型成为新一代威胁检测与分析的核心底座,为各类用户提供广泛且深入的安全赋能。