智能AI morning

GitHub 热门项目: markitdown

2026-05-08 1 阅读 GitHub Trending
? GitHub 项目:markitdown ?仓库地址:https://github.com/microsoft/markitdown ⭐ 星星:121763 | ? 作者:微软 ? 项目描述:用于将文件和 Office 文档转换为 Markdown 的 Python 工具。 =================================================== ? 自述文件内容: =================================================== # 标记下来 [![PyPI](https://img.shields.io/pypi/v/markitdown.svg)](https://pypi.org/project/markitdown/) ![PyPI - 下载](https://img.shields.io/pypi/dd/markitdown) [![由 AutoGen 团队构建](https://img.shields.io/badge/Built%20by-AutoGen%20Team-blue)](https://github.com/microsoft/autogen) > [!重要] > MarkItDown 使用当前进程的权限执行 I/O。与 open() 或 requests.get() 一样,它将访问进程本身可以访问的资源。在不受信任的环境中清理您的输入,并调用您的用例所需的最窄的“convert_*”函数(例如“convert_stream()”或“convert_local()”)。有关详细信息,请参阅文档的[安全注意事项](#security-considerations) 部分。 MarkItDown 是一个轻量级的 Python 实用程序,用于将各种文件转换为 Markdown,以便与 LLM 和相关文本分析管道一起使用。为此,它与 [texttract](https://github.com/deanmalmgren/textract) 最具可比性,但重点是将重要的文档结构和内容保留为 Markdown(包括:标题、列表、表格、链接等)。虽然输出通常相当美观且人性化,但它旨在由文本分析工具使用 - 并且可能不是供人类使用的高保真文档转换的最佳选择。 MarkItDown 目前支持以下转换: - PDF - 幻灯片 - 词 - Excel - 图像(EXIF 元数据和 OCR) - 音频(EXIF 元数据和语音转录) - HTML - 基于文本的格式(CSV、JSON、XML) - ZIP 文件(迭代内容) - YouTube 网址 - 电子书 - ...还有更多! ## 为什么要降价? Markdown 非常接近纯文本,具有最少的标记或格式,但仍然 提供了一种表示重要文档结构的方法。主流法学硕士,例如 OpenAI 的 GPT-4o,原生“_speak_”Markdown,并且经常将 Markdown 合并到他们的 无提示的响应。这表明他们接受过大量的培训 Markdown 格式的文本,并且很好理解。附带的好处是,Markdown 约定 也具有很高的代币效率。 ## 先决条件 MarkItDown 需要 Python 3.10 或更高版本。建议使用虚拟环境以避免依赖冲突。 通过标准 Python 安装,您可以使用以下命令创建并激活虚拟环境: ````bash python -m venv .venv 源 .venv/bin/activate ```` 如果使用“uv”,您可以使用以下命令创建虚拟环境: ````bash uv venv --python=3.12 .venv 源 .venv/bin/activate # 注意:请务必使用“uv pip install”而不仅仅是“pip install”在此虚拟环境中安装软件包 ```` 如果您使用的是 Anaconda,您可以