开发者生态
morning
ICLR 2026 – 机构隶属关系数据集和分析
2026-05-15
1 阅读
stared
ICLR 2026 — 机构隶属关系数据集和分析 端到端管道,将 5,356 篇 ICLR 2026 接受的论文转变为一个干净的、源自 PDF 的机构隶属关系数据集和一个可立即发表的树状图,显示谁正在塑造人工智能研究。这避免了 OpenReview-profile 漂移问题(作者当前的工作出现在他们写过的每一篇论文上,例如将怀俄明州列为实际在 UBC 撰写的论文的隶属关系)。隶属关系来自论文的标题块 PDF ,而不是来自作者简介。关注我以获得更多这样的分析,以及人工智能工程和研究见解: LinkedIn — linkedin.com/in/dmytrolopushanskyy GitHub — github.com/DmytroLopushanskyy 如果此数据集或管道对您的工作有用,关注/星标是鼓励我继续发布此类分析的最简单方法。标题图 每个矩形都是一个机构,其大小取决于其出现的已接受论文的数量(每篇论文计算一次,无论有多少论文作者隶属于该论文)。区域单元的规模根据其前 50 名机构的累计数量确定。浅色=学术界/研究所,深色=工业界。方形版本(用于社交帖子):charts/iclr2026_top50_treemap_unique_grouped_square.png data/ 文件中有什么 iclr2026_public.csv / .xlsx 主要数据集。 5,356 篇接受的论文包含 PDF 格式的作者和机构、标准化机构规范名称、国家/地区、摘要、OpenReview URL。带有 BOM 的 UTF-8 以实现 Excel 兼容性。 iclr2026_institutions_ranked_unique.csv 按唯一隶属关系计数排名的前 N 个机构(每个机构每篇论文 +1)。 iclr2026_institutions_ranked_first_author.csv 相同,但只计算第一作者的机构。 iclr2026_institutions_ranked_fractional.csv 相同,每个机构每篇论文的分数为 1/N 学分。 iclr2026_method_sensitivity.csv 在所有三种计数方法下并排排名,因此您可以看到哪些机构稳健,哪些机构是方法假象。 iclr2026_public.csv 中的列 列 含义 决策 口头/海报标题 论文标题(LaTeX 数学标记转换为 Unicode — $\alpha$ → α、$\nabla$ → ∇、$\textrm{...}$ → 纯文本等) 作者 用分号分隔,按作者顺序 机构 与作者相同的行顺序。每个作者的 PDF 提取文本(对于 PDF 解析失败的约 6% 的论文,使用 OpenReview 进行回退)。机构_canonical 通过约 250 条规则进行规范化。 MIT/麻省理工学院/MIT CSAIL全部倒向MIT。每张纸都进行了重复数据删除。国家/地区 每篇论文的重复数据删除列表。地区 每篇论文的高水平地区(中国、美国、香港等)。 Affiliation_source pdf (94%) / parse_fail (6%) / no_pdf (4 篇论文)。审计追踪。 Primary_Area OpenReview 轨道。关键词作者提供。摘要全文。 OpenReview_URL 论文的直接链接。快速入门 只需重新生成图表 git clone https://github.com/DmytroLopushanskyy/iclr2026-affiliations.git cd iclr2026-affiliations python3 -m venv .venv && source .venv/bin/activate pip install -rrequirements.txt python3 make_iclr_treemap.py --source pdf 这将读取 data/iclr2026_public.csv 并写入将树状图 PNG/SVG 放入图表/中。添加 --shape square 以获得 1:1 版本。添加 --source openreview 以与仅 OpenReview-profile 版本进行比较(需要首先运行 scraper)。从头开始重现完整的管道只有当您想重新派生数据集(例如,对于新会议)时才需要它。 PDF 缓存需要约 1-2 小时的网络时间和约 5 GB 的磁盘空间。 # 1. 抓取 OpenReview 元数据(需要帐户) export OPENREVIEW_USERNAME=... export OPENREVIEW_PASSWORD=... python3 scrape_openreview.py # → data/iclr2026_accepted.{csv,xlsx} # 2. 下载所有已接受的纸质 PDF(~5 GB;速率受限;重试脚本处理 429 秒) python3 download_missing_pdfs.py python3 retry_missing_pdfs.py # 拾取第一次达到 429 的任何内容 # 3. 解析 PDF 并与 OpenReview 数据合并 python3 build_pdf_spreadsheet.py # → data/iclr2026_accepted_pdf.{csv,xlsx} + data/pdf_parse_summary.txt # 4. 构建面向公众的 CSV(清理 + LaTeX-to-Unicode + 规范名称) python3 build_public_spreadsheet.py # → data/iclr2026_public.{csv,xlsx} # 5. 渲染图表 python3 make_iclr_treemap.py --source pdf # →charts/iclr2026_top50_treemap_*.{png,svg} 解析器如何工作 parse_pdf_affiliations.py 处理 ICLR 模板论文中常见的四种布局模式: 模式布局示例 A 编号脚注标记 Author1,2 Author1,3 ... \n 1Inst A 2Inst B 3Inst C B 无标记,单一共享隶属关系 Author1, Author2 \n 单一机构 C 每个作者节,由电子邮件分隔 Author1 \n Inst A \n a@x.edu \n Author2 \n Inst B \n b@y.edu D 交替名称/关系对(无电子邮件) 常见于行业论文(Apple、Anthropic、等)加上脚注文本过滤器,捕获并丢弃“同等贡献”,“通讯作者”,“项目负责人”,“这些作者