小白填坑记——用NLP做网络安全分析
2021.07.27 09:10浏览量:369简介:记录用PaddleNLP开发网页和邮件安全项目的历程
文心大模型4.5及X1 正式发布
百度智能云千帆全面支持文心大模型4.5 API调用,文心大模型X1即将上线
开端
岁末年初的时候,突然接到一个工作安排,瞬间研究方向就变了……从已经轻车熟路的计算机视觉方向,换成了网络安全领域的数据分析。
emmmmmm……
可想而知,这么一个很多深度学习玩家听都没怎么听过的领域,要是有充足的资料和数据,也不会这么冷门了————扎心了,开发方向从大热混到了大冷。
徘徊
2021.01-2021.03,在新的领域,一个项目都没写出来,真可谓“万事开头难”。
严格来说,课题不限,思路自拟,自由度看似还是比较大的……但这个冷门领域,真是切切实实感觉到什么叫毫无头绪。
资料找了不少,但是看论文折腾了半天,不知道作者到底怎么做的。数据也很有限,有的日志数据几十G,却完全看不出太多可利用之处……
转机
迷茫间,社区里一个和网络安全八竿子打不着的项目带来了新的启发——用PaddleNLP进行情感分类。
众所周知,近来BERT可是个大热领域,看起来,对网页文本内容进行挖掘,似乎是一个可行的方向。
提取网页文本内容,拿来做个分类,似乎是一个看似比较可行的方向。
当然,这中间还是有些小波折,Paddle动态图正在升级,从2.0到2.1,API一直迭代,数据读取的原理等等,又花了一段时间才弄清头绪。
期待
BERT不愧是大热领域,模型库选择足够丰富;网络安全领域,数据格式也是花样繁多,邮件的eml格式、网页的html解析、分析日志……
这部分内容还有很多待挖掘,加油吧~~~
发表评论
登录后可评论,请前往 登录 或 注册