- 推荐一些我喜欢的科研工具(有些限定于 AI 领域)
- 标记【待尝试】的是我还未使用过但感觉比较有用的工具,会尽快尝试并根据体验决定是否保留
- 请通过 issues 等方式向我推荐您觉得好用的但不在此清单上的 AI 领域科研工具,感谢
一般来说,当我需要根据论文标题或其他信息查找 PDF 文件时,我会首选使用 dblp(检索结果清晰,无需科学上网)。对于某些特殊情况,我会再使用 Google Scholar。
dblp: computer science bibliography:专为 CS 设计的论文查询网站,收录比较顶级并可以被检索到的论文。可以根据会议、期刊等分类查询作者的论文,想搜一个计算机会议的所有文章时好用。
Google scholar:除开搜索论文之外,可以在这里查看论文统计和引用参考文献,还能通过关注作者或者论文获得新论文更新提醒,以及利用自动化推荐来提供一个基本库。
Semantic scholar:可以结合外部材料整合进行论文的语义分析。功能包括:展示引用和参考文献、度量论文影响力、展示论文图表、自动生成关键词(根据标题)、分析作者、在互联网寻找额外资源(例如,相关 youtube 视频),以及推荐论文。
arXiv: 论文预印本收录网站。
arXiv-sanity:在功能上相比于 arXiv 有很大的改进,包括在浏览中显示摘要、评论和非常基本的社交、推荐、库功能。搜索也更好用。
Semantic Sanity: A Personalized Adaptive Feed:创建自己的个性化 arXiv 选读 Feed。创建每个 Feed 时,会让您先选择几篇论文,然后根据这几篇论文开始推荐,对于推荐结果可以点赞或者不喜欢来帮助调整推荐结果。
Paper Digest – AI for tracking and summarizing papers: 提供邮件订阅前一天出的论文的列表,附有每篇论文的一句话总结。对我更重要的是这个网站也会在每个顶会论文全部公布时进行整理。
Papers With Code:自动把论文连接到实现代码的 GitHub 资源库和数据集,并根据 GitHub 的收藏量排序。展示各任务上的 SOTA 以供比较。
labmlai/annotated_deep_learning_paper_implementations:很多算法的 PyTorch 实现,带有在线版的注释。缺点是展示的部分不是从头实现,一部分代码放在他们自己的包里了。
Mendeley:我目前使用这个。支持 web、PC、Mac 和移动手机等多个平台,可以直接注释和高亮显示 PDF,有限额的免费云存储。
Zotero:能够对文献数据库网页中的文献题录直接抓取,常与坚果云配合使用,来实现文献管理多端同步(支持MacOS、Windows、iPad、Linux、iOS)。
Kimi Chat:类 ChatPGT 产品,大伙应该都比较熟悉了。
Cool Papers:苏剑林大佬开发的刷论文网站。可根据 README 自行探索使用。
CopyTranslator:最大的优点在于有置顶、点按复制、监听剪贴板等功能,阅读文献配合使用时可以无缝切换,非常方便。
Saladict 沙拉查词:浏览器翻译插件,有非常丰富的设置来配合用户的使用习惯。除了官方文档,也可以看 沙拉查词 + Alfred,打造最佳文献翻译体验! 来了解。我还在探索如何在 Windows 系统上实现浏览器外翻译。
我之前使用印象笔记,但目前已经停用并考虑迁移。
语雀:非常轻量,我一般使用网页端。偶尔有些清单同步到手机端也很好用。新使用的同学可以填我的邀请码 QPFTUN 领取 30 天会员:kissing_heart:
Notion:如果需要多人协作、项目管理,可能 Notion 会更合适。
the-incredible-pytorch:有关 PyTorch 的各种教程、项目、视频等资源。
computervision-recipes:微软出品,基于 PyTorch 的各种 CV 任务的教程。
Pytorch-Project-Template:一个可扩展的 PyTorch 项目模板,包括图像分割、目标分类、GANs 和强化学习等实例。
pytorch-template:另一份 PyTorch 项目模板。
torchinfo:打印 PyTorch 模型信息,包含模型每层的参数量、输出张量大小等。
flops-counter.pytorch:计算模型总共的 FLOPs(浮点运算数,理解为计算量,可以用来衡量算法/模型的复杂度)以及每层的占比。缺点是似乎不支持 RNN 相关层,另外打印下来的信息不是很方便看。
PyTorch 最新版本已经带有 tensorboard。官方 tutorial。
visdom:【待尝试】用于创建、组织和共享实时丰富数据可视化的灵活工具。
Convolution Visualizer:如果卷积层配置比较复杂,不方便计算输出大小时,可以利用这个可视化工具辅助。
Google Dataset Search
Data Search | Bifrost:视觉数据集搜索。
optuna:自动超参数优化框架。
microsoft/nni:【待尝试】用于神经模型搜索和超参数调优的开源自动机器学习(AutoML)的工具包,支持绝大多数主流框架和运行环境。
Hyperopt:【待尝试】分布式异步超参数优化。看到知乎上有人推荐,不过根据文档来看,目前支持的优化算法只有两种,且不包括贝叶斯优化。
BoTorch:【待尝试】基于 PyTorch 的贝叶斯优化库。
automl/Auto-PyTorch:【待尝试】基于 PyTorch 的自动结构搜素和超参数搜索。
包括论文、报告、海报等在内的各种 LaTeX 模板。
Templates from Overleaf
LaTeX Templates
多人协作推荐 Overleaf,也是我绝大多数时候的选择。单人项目可以使用 VSCode 进行离线的 LaTeX 写作,配合 Github 私有库进行版本管理。
可以看一下这篇文章的推荐:有了这些网站,英文论文再也不难写了(15个英文论文写作辅助网站介绍和使用技巧) - 知乎
Linggle:搜索最常出现的英文词语搭配。不确定自己的表达方式是否正确时使用。
Corpus of Contemporary American English (COCA):可以查词汇搭配的美式英语语料库,可以查看具体的用了这个词的句子。 British National Corpus (BYU-BNC):英式英语的语料库,语料比美式的少一些
Thesaurus:将低端词汇转换为同义的高端词汇。
易搜搭ESODA:清华HCI Lab工作室出品的一款适合国人英语写作的词组搭配查询工具。可切换具体研究方向的论文语料库,展示相关的可替换用法,支持中英混搜。
Words and phrases: frequency, genres, collocates, concordances, synonyms, and WordNet:用不同颜色区分高中低频词,展现代表文章类型的词汇,并归类出相关可替换的词。虽然说是英文写作措辞辅助工具,感觉最大的用途是学习相关领域论文常用的词汇和搭配。
除开各种类 ChatGPT 外的一些选择。请注意在线检测工具的泄露风险,谨慎处理关键文字。
Grammarly:语法、句型、标点、选词检测修改,有浏览器插件。
Nounplus.net:免费的在线英文语法检测。
Mathpix:通过截取复杂数学方程式的截图将其转换为 LaTeX 代码。可以处理 PDF 的印刷体和照片中的手写公式等。
MyScript Webdemo:Math 模块可以将手写公式转为 LaTeX 代码;同时,Diagram 模块可以将手绘的框图转化为工整的框图。
Detexify LaTeX handwritten symbol recognition: 忘记某些字符用 LaTeX 怎么表示时,可以在这个网站上通过手写来查询。
Mac OS 系统可以使用 OmniGraffle。
PPT 通常是我的第一选择:入手快,种类多,自由度高,支持导出矢量图。
Paper-Picture-Writing-Code:基于 LaTex 的画图代码,包含折线图、柱状图、散点图、注意力可视化以及结构图。
academic-drawing:Matlab/Python 绘图,主要用于画时序数据。
awesome-latex-drawing:LaTeX 绘图,主要用于画贝叶斯网络、张量分解等。
PlotNeuralNet:Python 得到可用于 LaTeX 的图,主要画 CNN。
提供各种格式的图片的转换服务的网站很多。这里只是简单列举,你也可以通过搜索引擎来找到其他类似的网站。
Convert PNG/JPEG (Raster) to EPS/PDF (Vector) Format:将 jpg、png 格式的图片文件转换为 eps 文件。
EPS到PDF转换器:也可以将 eps 文件转换为别的格式的图片。
Crop PDF files online - PDF Tools:裁剪 pdf 文件的白边。
TexLive 自带了一些命令行工具:
epstopdf <file.eps>
;pdfcrop <file.pdf>
。ccf-deadlines:可以根据研究方向和 CCF 等级来筛选本年度已经确定截稿日期的会议。对国内的同学比较友好。
AI Conference Deadlines:可以根据研究方向筛选会议。但是好像需要科学上网才能看到全部信息。
Conference List:根据截稿时间排序,过期的会议不在首页出现。有一页可以看每个研究方向有哪些会议,但是没有办法根据研究方向筛选还没过期的会议。
Conference Partner (会伴):计算机最新国际会议和期刊列表。可以注册以关注会议或期刊。比较全,但目前信息更新不及时。
出于论文盲审考虑,有时候文件(如源码)链接需要是匿名的。有些人会选择在 Github 上创建一个匿名账号,但为每一个会议的每一篇论文都创建一个账号可能过于繁琐。我查到有一些工具支持匿名分享文件如下。
Dropbox:应该是最常用的。
Open Science Framework
Figshare
Arxiv 论文提交流程——看这篇就够了:文章,用于了解将论文提交至 arXiv 上的流程。
arxiv-latex-cleaner:将论文的 LaTeX 代码清理为提交至 arXiv 上的要求。一个亮点是能够自动清理掉论文中所有被注释掉的内容。
overleaf -> arxiv 丝滑提交过程:如果是使用 Overleaf(而不是在本地将 LaTeX 代码编译为论文),可以先参考本文下载合适的源码包,然后再考虑使用 arxiv-latex-cleaner。
为已发表的论文提供清晰、可复现的代码能够有效推动领域发展。这里推荐一些对开源代码有帮助的工具。
ReproducibilityChecklist-v2.0:一份机器学习复现清单,列举了你应该提供哪些文件来增强你的论文的可复现性。
pigar:Python 项目 requirements 文件自动生成工具。
Rainyscope rain simulator:下雨声。
LofiGirl的音乐自习室:Lo-Fi 音乐直播间。