ICLR 2026 – 机构隶属关系数据集和分析

ICLR 2026 — 机构隶属关系数据集和分析端到端管道，将 5,356 篇 ICLR 2026 接受的论文转变为一个干净的、源自 PDF 的机构隶属关系数据集和一个可立即发表的树状图，显示谁正在塑造人工智能研究。这避免了 OpenReview-profile 漂移问题（作者当前的工作出现在他们写过的每一篇论文上，例如将怀俄明州列为实际在 UBC 撰写的论文的隶属关系）。隶属关系来自论文的标题块 PDF ，而不是来自作者简介。关注我以获得更多这样的分析，以及人工智能工程和研究见解： LinkedIn — linkedin.com/in/dmytrolopushanskyy GitHub — github.com/DmytroLopushanskyy 如果此数据集或管道对您的工作有用，关注/星标是鼓励我继续发布此类分析的最简单方法。标题图每个矩形都是一个机构，其大小取决于其出现的已接受论文的数量（每篇论文计算一次，无论有多少论文作者隶属于该论文）。区域单元的规模根据其前 50 名机构的累计数量确定。浅色=学术界/研究所，深色=工业界。方形版本（用于社交帖子）：charts/iclr2026_top50_treemap_unique_grouped_square.png data/ 文件中有什么 iclr2026_public.csv / .xlsx 主要数据集。 5,356 篇接受的论文包含 PDF 格式的作者和机构、标准化机构规范名称、国家/地区、摘要、OpenReview URL。带有 BOM 的 UTF-8 以实现 Excel 兼容性。 iclr2026_institutions_ranked_unique.csv 按唯一隶属关系计数排名的前 N 个机构（每个机构每篇论文 +1）。 iclr2026_institutions_ranked_first_author.csv 相同，但只计算第一作者的机构。 iclr2026_institutions_ranked_fractional.csv 相同，每个机构每篇论文的分数为 1/N 学分。 iclr2026_method_sensitivity.csv 在所有三种计数方法下并排排名，因此您可以看到哪些机构稳健，哪些机构是方法假象。 iclr2026_public.csv 中的列列含义决策口头/海报标题论文标题（LaTeX 数学标记转换为 Unicode — $\alpha$ → α、$\nabla$ → ∇、$\textrm{...}$ → 纯文本等）作者用分号分隔，按作者顺序机构与作者相同的行顺序。每个作者的 PDF 提取文本（对于 PDF 解析失败的约 6% 的论文，使用 OpenReview 进行回退）。机构_canonical 通过约 250 条规则进行规范化。 MIT/麻省理工学院/MIT CSAIL全部倒向MIT。每张纸都进行了重复数据删除。国家/地区每篇论文的重复数据删除列表。地区每篇论文的高水平地区（中国、美国、香港等）。 Affiliation_source pdf (94%) / parse_fail (6%) / no_pdf (4 篇论文)。审计追踪。 Primary_Area OpenReview 轨道。关键词作者提供。摘要全文。 OpenReview_URL 论文的直接链接。快速入门只需重新生成图表 git clone https://github.com/DmytroLopushanskyy/iclr2026-affiliations.git cd iclr2026-affiliations python3 -m venv .venv && source .venv/bin/activate pip install -rrequirements.txt python3 make_iclr_treemap.py --source pdf 这将读取 data/iclr2026_public.csv 并写入将树状图 PNG/SVG 放入图表/中。添加 --shape square 以获得 1:1 版本。添加 --source openreview 以与仅 OpenReview-profile 版本进行比较（需要首先运行 scraper）。从头开始重现完整的管道只有当您想重新派生数据集（例如，对于新会议）时才需要它。 PDF 缓存需要约 1-2 小时的网络时间和约 5 GB 的磁盘空间。 # 1. 抓取 OpenReview 元数据（需要帐户） export OPENREVIEW_USERNAME=... export OPENREVIEW_PASSWORD=... python3 scrape_openreview.py # → data/iclr2026_accepted.{csv,xlsx} # 2. 下载所有已接受的纸质 PDF（~5 GB；速率受限；重试脚本处理 429 秒） python3 download_missing_pdfs.py python3 retry_missing_pdfs.py # 拾取第一次达到 429 的任何内容 # 3. 解析 PDF 并与 OpenReview 数据合并 python3 build_pdf_spreadsheet.py # → data/iclr2026_accepted_pdf.{csv,xlsx} + data/pdf_parse_summary.txt # 4. 构建面向公众的 CSV（清理 + LaTeX-to-Unicode + 规范名称） python3 build_public_spreadsheet.py # → data/iclr2026_public.{csv,xlsx} # 5. 渲染图表 python3 make_iclr_treemap.py --source pdf # →charts/iclr2026_top50_treemap_*.{png,svg} 解析器如何工作 parse_pdf_affiliations.py 处理 ICLR 模板论文中常见的四种布局模式：模式布局示例 A 编号脚注标记 Author1,2 Author1,3 ... \n 1Inst A 2Inst B 3Inst C B 无标记，单一共享隶属关系 Author1, Author2 \n 单一机构 C 每个作者节，由电子邮件分隔 Author1 \n Inst A \n a@x.edu \n Author2 \n Inst B \n b@y.edu D 交替名称/关系对（无电子邮件）常见于行业论文（Apple、Anthropic、等）加上脚注文本过滤器，捕获并丢弃“同等贡献”，“通讯作者”，“项目负责人”，“这些作者