小白填坑记——用NLP做网络安全分析

作者：深渊上的坑2021.07.27 17:10浏览量：554

简介：记录用PaddleNLP开发网页和邮件安全项目的历程

开端

岁末年初的时候，突然接到一个工作安排，瞬间研究方向就变了……从已经轻车熟路的计算机视觉方向，换成了网络安全领域的数据分析。

emmmmmm……

可想而知，这么一个很多深度学习玩家听都没怎么听过的领域，要是有充足的资料和数据，也不会这么冷门了————扎心了，开发方向从大热混到了大冷。

2021.01-2021.03，在新的领域，一个项目都没写出来，真可谓“万事开头难”。

严格来说，课题不限，思路自拟，自由度看似还是比较大的……但这个冷门领域，真是切切实实感觉到什么叫毫无头绪。

资料找了不少，但是看论文折腾了半天，不知道作者到底怎么做的。数据也很有限，有的日志数据几十G，却完全看不出太多可利用之处……

迷茫间，社区里一个和网络安全八竿子打不着的项目带来了新的启发——用PaddleNLP进行情感分类。

众所周知，近来BERT可是个大热领域，看起来，对网页文本内容进行挖掘，似乎是一个可行的方向。

提取网页文本内容，拿来做个分类，似乎是一个看似比较可行的方向。

当然，这中间还是有些小波折，Paddle动态图正在升级，从2.0到2.1，API一直迭代，数据读取的原理等等，又花了一段时间才弄清头绪。

BERT不愧是大热领域，模型库选择足够丰富；网络安全领域，数据格式也是花样繁多，邮件的eml格式、网页的html解析、分析日志……

这部分内容还有很多待挖掘，加油吧~~~

活动