Skip to content

给Hacking8信息流增加了pdf全文搜索

字数
539 字
阅读时间
3 分钟
更新日期
11/15/2022

很早就有这个想法了,看到很多技术文档和一些安全大会的内容是pdf形式放出的,于是也想让hacking8支持pdf全文索引。

正好最近换服务器,写了几天bug,把这个功能加上了,索引了珍藏的20G PDF (包含各种安全大会的pdf和一些技术文档资料)。 为此,特意把hacking8的搜索框放大了,方便搜索 。

image-20221115160731170

全文搜索语法

hacking8使用ES构建全文搜索,ES支持的语法都能使用,能像搜索引擎一样搜索内容

如普通的 “安全开发 面试”

image-20221115162248371

支持按节点搜索 node:

image-20221115161844020

节点的名称可以先进入全部节点 ,在里面点击找到节点名称

image-20221115161047178

常见的还有 || && () 排除使用 -

如搜索“安全开发”的时候,有很多v2ex的节点

image-20221115162707030

此时可以使用 安全开发 -node:v2ex来排除v2ex节点。

排序

全文排序规则默认是按照搜索相关程度打分排序,相同时则按照时间倒序排序。

如果想看某个关键词最新的内容,可以使用 order by time desc手动设定按照时间倒序,order by time asc时间正序

按照分数倒序分数正序:order by score desc order by score asc

如想看到最新的安全招聘信息,可以输入安全 招聘 order by time desc 查看

image-20221115163054124

最后

  • Hacking8安全信息流是免费的 ,有想索引的pdf可以发邮件到master@hacking8.com

  • Hacking8的 全文索引不是实时的,一般会在次日定时检索前一天的内容

  • hacking8安全信息流已经运行了两年多了,索引了不少数据,后面可以统计下各种词频,做一做”大数据分析”

  • 搜索引擎搜索“Hacking8安全信息流” 即可访问,就不放链接了

撰写