logo

小白填坑记——用NLP做网络安全分析

作者:深渊上的坑2021.07.27 17:10浏览量:302

简介:记录用PaddleNLP开发网页和邮件安全项目的历程

开端

岁末年初的时候,突然接到一个工作安排,瞬间研究方向就变了……从已经轻车熟路的计算机视觉方向,换成了网络安全领域的数据分析。

emmmmmm……

可想而知,这么一个很多深度学习玩家听都没怎么听过的领域,要是有充足的资料和数据,也不会这么冷门了————扎心了,开发方向从大热混到了大冷。

徘徊

2021.01-2021.03,在新的领域,一个项目都没写出来,真可谓“万事开头难”。

严格来说,课题不限,思路自拟,自由度看似还是比较大的……但这个冷门领域,真是切切实实感觉到什么叫毫无头绪。

资料找了不少,但是看论文折腾了半天,不知道作者到底怎么做的。数据也很有限,有的日志数据几十G,却完全看不出太多可利用之处……

转机

迷茫间,社区里一个和网络安全八竿子打不着的项目带来了新的启发——用PaddleNLP进行情感分类。

众所周知,近来BERT可是个大热领域,看起来,对网页文本内容进行挖掘,似乎是一个可行的方向。

提取网页文本内容,拿来做个分类,似乎是一个看似比较可行的方向。

当然,这中间还是有些小波折,Paddle动态图正在升级,从2.0到2.1,API一直迭代,数据读取的原理等等,又花了一段时间才弄清头绪。

期待

BERT不愧是大热领域,模型库选择足够丰富;网络安全领域,数据格式也是花样繁多,邮件的eml格式、网页的html解析、分析日志……

这部分内容还有很多待挖掘,加油吧~~~

PS:相关项目

相关文章推荐

发表评论