logo

使用arXiv API和Github Actions实现自动获取arXiv论文摘要

作者:菠萝爱吃肉2024.02.18 20:55浏览量:15

简介:本文将介绍如何使用arXiv API和Github Actions实现每天自动获取arXiv论文摘要,并进行后续处理。我们将通过以下步骤实现这一目标:设置Github Actions、安装所需的依赖、编写获取论文摘要的脚本、将脚本部署到Github Actions中。通过这个过程,你可以轻松地获取到最新的arXiv论文摘要,并对其进行进一步的分析和处理。

第一步:设置Github Actions

在Github项目中,进入“Settings”页面,选择“Secrets”选项,创建一个名为“ARXIV_API_TOKEN”的秘密,用于存储你的arXiv API访问令牌。

第二步:安装依赖

在项目的根目录下,打开终端并运行以下命令安装所需的依赖:

  1. pip install requests

第三步:编写获取论文摘要的脚本

创建一个Python脚本(例如“get_arxiv_abstracts.py”),并使用以下代码实现获取arXiv论文摘要的功能:

  1. import requests
  2. import json
  3. def get_arxiv_abstracts():
  4. url = 'https://export.arxiv.org/api/query?search_query=cat:cs.AI&sortby=lastUpdatedDate&sortorder=descending'
  5. headers = {
  6. 'Accept': 'application/atom+xml',
  7. 'Authorization': 'Bearer ARXIV_API_TOKEN'
  8. }
  9. response = requests.get(url, headers=headers)
  10. data = response.json()['feed']['entry']
  11. abstracts = [entry['summary'] for entry in data]
  12. return abstracts

这段代码通过发送GET请求到arXiv API,获取计算机科学领域(cat:cs.AI)的最新论文摘要。请注意,你需要将“ARXIV_API_TOKEN”替换为你自己的实际访问令牌。

第四步:将脚本部署到Github Actions

在项目的根目录下,打开“Github Actions”文件(通常为“actions.yml”),在“on.schedule”部分添加以下内容:

  1. daily:
  2. - cron: "0 0 * * *"
  3. name: Fetch arXiv abstracts
  4. jobs:
  5. - name: Fetch arXiv abstracts
  6. run:
  7. command: python get_arxiv_abstracts.py > arXiv_abstracts.txt

这段代码将设置一个每天凌晨1点运行的定时任务,执行“get_arxiv_abstracts.py”脚本并将结果保存到名为“arXiv_abstracts.txt”的文件中。你可以根据需要调整cron表达式来更改定时任务的运行时间。

完成以上步骤后,Github Actions将每天自动运行获取arXiv论文摘要的脚本,并将结果保存在指定的文件中。你可以根据需要对这些摘要进行进一步的分析和处理。请确保在部署之前替换掉示例代码中的访问令牌和其他相关信息,并根据你的实际需求进行相应的调整。

相关文章推荐

发表评论