智能AI
morning
GitHub 热门项目: markitdown
2026-05-08
1 阅读
GitHub Trending
? GitHub 项目:markitdown
?仓库地址:https://github.com/microsoft/markitdown
⭐ 星星:121763 | ? 作者:微软
? 项目描述:用于将文件和 Office 文档转换为 Markdown 的 Python 工具。
===================================================
? 自述文件内容:
===================================================
# 标记下来
[](https://pypi.org/project/markitdown/)

[](https://github.com/microsoft/autogen)
> [!重要]
> MarkItDown 使用当前进程的权限执行 I/O。与 open() 或 requests.get() 一样,它将访问进程本身可以访问的资源。在不受信任的环境中清理您的输入,并调用您的用例所需的最窄的“convert_*”函数(例如“convert_stream()”或“convert_local()”)。有关详细信息,请参阅文档的[安全注意事项](#security-considerations) 部分。
MarkItDown 是一个轻量级的 Python 实用程序,用于将各种文件转换为 Markdown,以便与 LLM 和相关文本分析管道一起使用。为此,它与 [texttract](https://github.com/deanmalmgren/textract) 最具可比性,但重点是将重要的文档结构和内容保留为 Markdown(包括:标题、列表、表格、链接等)。虽然输出通常相当美观且人性化,但它旨在由文本分析工具使用 - 并且可能不是供人类使用的高保真文档转换的最佳选择。
MarkItDown 目前支持以下转换:
- PDF
- 幻灯片
- 词
- Excel
- 图像(EXIF 元数据和 OCR)
- 音频(EXIF 元数据和语音转录)
- HTML
- 基于文本的格式(CSV、JSON、XML)
- ZIP 文件(迭代内容)
- YouTube 网址
- 电子书
- ...还有更多!
## 为什么要降价?
Markdown 非常接近纯文本,具有最少的标记或格式,但仍然
提供了一种表示重要文档结构的方法。主流法学硕士,例如
OpenAI 的 GPT-4o,原生“_speak_”Markdown,并且经常将 Markdown 合并到他们的
无提示的响应。这表明他们接受过大量的培训
Markdown 格式的文本,并且很好理解。附带的好处是,Markdown 约定
也具有很高的代币效率。
## 先决条件
MarkItDown 需要 Python 3.10 或更高版本。建议使用虚拟环境以避免依赖冲突。
通过标准 Python 安装,您可以使用以下命令创建并激活虚拟环境:
````bash
python -m venv .venv
源 .venv/bin/activate
````
如果使用“uv”,您可以使用以下命令创建虚拟环境:
````bash
uv venv --python=3.12 .venv
源 .venv/bin/activate
# 注意:请务必使用“uv pip install”而不仅仅是“pip install”在此虚拟环境中安装软件包
````
如果您使用的是 Anaconda,您可以