如何从图片中提取文字

文字就明明白白地摆在屏幕上——一张截图、一张白板的照片、一份扫描件、别人发你的一张菜谱图片。眼睛能读得清清楚楚，可一旦想复制，却什么反应都没有。文字被锁在了图片里，Windows 把整张图当成一整块像素，而不是一段可读的文字。

这是那种「按理早该被解决」的日常小烦恼。你能让手机从照片里认出一株植物，可想从截图里复制一个电话号码，要么手动重新打一遍，要么得找对工具。

解决它的技术叫 OCR——光学字符识别（Optical Character Recognition）。这项技术已经存在了几十年，但在最近几年里进步神速。问题不在于它好不好用（它确实好用），而在于：针对你要做的事，哪种方式最合适。

先说结论： Windows 自带几种从图片里提取文字的方式，但都比较有限，而且入口往往不明显。如果想稳定地从截图、照片和扫描件里提取文字，OCR Text Recognition Tool 这类来自 Microsoft Store 的专用 OCR 工具几乎不用设置就能搞定——打开图片、提取文字、复制即可。如果只是偶尔用一下，Windows 自带的 PowerToys「文本提取器」（Text Extractor）也值得了解。

OCR 到底做了什么

OCR 是分析一张图片、识别其中字符、再把它们转换成可以选中、复制、编辑的文字的过程。概括来说，软件会观察图片里的形状，把它们和已知的字符样式做比对，再给出对每个字符的最佳猜测。

现代 OCR 早已不止是简单的样式匹配。如今的识别引擎用的是能理解上下文的机器学习模型——它们知道在某些字体里「rn」和「m」看起来几乎一模一样，于是会借助周围的词来判断到底是哪一个。它们能处理倾斜的文字、不均匀的光照、手写字符（程度不一），以及同一页上的多种语言。

识别准确度取决于几个因素：源图清不清晰、文字用的什么字体、是印刷体还是手写体，以及图里有多少干扰杂讯。一张干净的文档截图，几乎能完美转换；而一张在昏暗光线下拍的、皱巴巴的小票照片，则是个更难啃的问题。

📊 Windows 上的 OCR 方法对比

方法	费用	适合场景	多语言
OCR Text Recognition Tool	有免费额度／之后为实惠的订阅	稳定的日常文字提取，支持多语言	支持
PowerToys 文本提取器	免费	已在用 PowerToys 时的临时取词	有限
Google Lens（网页版）	免费	在浏览器里从图片快速取词	支持
OneNote OCR	有 Microsoft 账号即免费	已在微软生态里的用户	支持
Adobe Acrobat Pro	按月付费订阅	对扫描版 PDF 做专业 OCR	支持

哪些场景下你会需要它

在挑工具之前，先理解几种常见情形会很有帮助。大家搜「提取文字」的理由其实五花八门，而最合适的做法，取决于你面对的是哪一种。

错误信息或代码的截图。 同事丢给你一张报错截图。你需要搜索那段报错文字，或者把它粘到工单里。一个字符一个字符地重打一段堆栈跟踪，既烦人又容易出错。OCR 几秒钟就能把原文一字不差地提取出来。

扫描的文档。 你手上有一份扫描的合同、一张小票照片，或者一个「每页其实都是图片」的 PDF。屏幕上看着一切正常，可什么都选不中。OCR 能把图片转成真正可复制、可检索的文字。

印刷材料的照片。 书里的一页、开完会的白板、一张营养成分表、一块外语路牌。任何时候只要你能把文字拍下来、却没法数字化选中，OCR 就是那座桥。

被困在图片里的数据。 有人把一张表格当截图发给你，而不是发表格文件。一张图表上有你要引用的标签。一页演示幻灯片上有你想引用的文字。这些都需要从图片里把文字提取出来，而不是去拿底层的源文件。

另一种语言的文字。 你有一张图，上面是你看不懂的语言。先把文字提取出来再翻译，往往比直接对着图片翻译更靠谱——因为翻译工具在输入是干净文字时表现更好。

方法一：PowerToys 文本提取器

Microsoft PowerToys 是一套免费的 Windows 实用工具合集，其中之一——文本提取器（Text Extractor）——就能做基础的 OCR。如果你已经装了 PowerToys，可以马上用起来。按下 Win + Shift + T，再框选你想提取的文字区域，识别出来的文字会直接进入剪贴板。

对于标准语言、清晰且光线良好的文字，它表现不错。它的短板在于复杂图片、多语言内容，或是你需要对整个过程有更多掌控的场景。它没有「识别结果预览」，没法在复制前纠错，而且支持哪些语言，取决于你在 Windows 上装了哪些 OCR 语言包。

用来快速、偶尔取一下词——从截图里抓一行字、从图里复制一个地址——它出乎意料地好用。再复杂一点，就显得力不从心了。

如果还没装 PowerToys，可以从 Microsoft Store 或 GitHub 获取。安装很简单，只是装下来的是整套 PowerToys，而不只是 OCR 这一项功能。

顺带一提：Windows 11 自带的截图工具（Snipping Tool）现在也内置了类似能力。按下经典的 Win + Shift + S 截图后，在弹出的工具栏里选「文本操作」（Text actions）图标，框选区域即可提取其中文字，还能「复制为表格」、或快速隐去其中的邮箱和电话号码。整个识别过程都在本机完成。如果你只是想偶尔取一下词，又不想额外装东西，这是个顺手的内置选项。

方法二：专用 OCR 应用

如果提取文字对你来说不只是「偶尔为之」，那么专用 OCR 应用是更实际的选择。它的流程更简单：打开图片、点一下提取，识别出来的文字就出现在那里，随时可复制。不用记快捷键，不用在屏幕上框选，也不用粘到别处去才知道这次到底有没有提取成功。

专用应用通常也更擅长处理边角情况——混合语言的图片、歪斜角度的文字、画质较差的照片、带背景杂讯的扫描件。它们把全部工程精力都投入到 OCR 这条流水线上，在难处理的输入上，准确度的差距就体现出来了。

有些 OCR 应用并非全部在本机处理，而是通过云端识别引擎来完成。这是一种现实的设计取舍：云端引擎用海量得多的数据训练，往往更准，尤其是在手写体、生僻字体和非拉丁文字上。代价是图片会短暂离开你的设备去做处理。对大多数用途——从截图里取词、读一张扫描小票——这都不是问题；但如果你处理的是机密材料，就值得了解这一点。

方法三：OneNote 里藏着的 OCR 功能

OneNote 内置了 OCR，只是不太显眼。把一张图片粘贴或插入到 OneNote 页面里，右键它，选「从图片中复制文本」。OneNote 会处理这张图，并把识别出来的文字复制到剪贴板。

对于清晰的图片和印刷体文字，准确度还不错。缺点在于流程：你得打开 OneNote，新建或切换到某一页，插入图片，等它处理一下，再右键。如果你本来就在用 OneNote 做别的事，这是个挺巧妙的小技巧；但如果你不用，单单为了从图里取个词就专门打开一个笔记应用，就显得有点绕。

还有个小怪癖：OneNote 有时需要几秒钟才能处理完图片，「复制文本」选项才会出现。如果你刚插入就立刻右键，那个选项可能还没冒出来。

方法四：浏览器里的 Google Lens

Google Lens 能直接在 Chrome 里从图片提取文字。在网页上的任意图片上右键，选「使用 Google 智能镜头搜索图片」，再切到「文字」模式，就能选中并复制识别出来的文字。

对于本来就在浏览器里的图片——发在某个网站上的截图、一段文档预览、一张内嵌图片——这很方便，因为什么都不用装。但对于桌面上或文件夹里的图片，你得先把它们拖进浏览器，这就多了一步。

它的 OCR 质量很强，尤其是在多语言上。Google 的识别引擎是目前最好的之一，Lens 也沾了同一套技术的光。局限在于它只能在 Chrome 里用，而且需要联网。

哪些因素会影响 OCR 准确度

无论你用哪种工具，并不是所有图片都能得到一样的结果。理解这些因素，有助于你建立合理预期，并在条件允许时先改善源图再去提取。

分辨率很重要。 分辨率更高的图片，OCR 结果更好。一张 300 DPI 的扫描件几乎能完美转换；一张 72 DPI、文字又小的截图，则可能出错。如果源头由你掌控，就用你能做到的最高分辨率去采集。

对比度比颜色更要紧。 OCR 引擎在处理前，会先在内部把图片转成高对比度。白底黑字效果最好。浅灰底配上稍浅一点的灰字——那种你眼睛看着没问题的搭配——反而可能让引擎犯难，因为对比度太低了。

端正的文字比歪斜的好认。 如果你在拍一页纸，尽量正对着拍，而不是斜着拍。现代 OCR 能容忍一定的倾斜，但每多一度旋转，准确度就会稍微下降一点。如果是做扫描，用平板扫描仪会比手机相机得到更干净的结果。

印刷体 vs 手写体。 标准字体的印刷体转换非常准——清晰图片可达 99% 以上。手写识别进步很大，但仍因人而异。工整、一致的手写体效果尚可；潦草的手写或特殊风格，对任何 OCR 引擎来说都还是难题。

杂讯与瑕疵。 污渍、咖啡渍、折痕、压缩瑕疵，都会拉低准确度。尤其是 JPEG 压缩，可能把字符边缘糊掉那么一点点，从而导致误读。如果源头是一张被高度压缩的图片，OCR 引擎能利用的信息就更少。

应对扫描版 PDF

提取文字这个问题里，有一种特殊变体：扫描版 PDF。这种 PDF 里，每一页其实都是一张照片——查看时文字看着很正常，可一选就什么都高亮不了。PDF 阅读器把每一页都当成一整张图片。

想判断一个 PDF 是扫描件还是文字版，有个快捷办法：打开它，用光标点击拖动去选一个词。如果能逐个词高亮，那就是文字版，不需要 OCR——直接复制文字就行。如果什么都高亮不了、或者整页被当作一块选中，那就是扫描件。

对扫描版 PDF，做法和处理任何图片一样：对它跑一遍 OCR。有些 OCR 工具能直接接收 PDF 文件，把每一页都当作图片来处理；另一些则需要你先把 PDF 各页转成图片。无论哪种方式，最终得到的都是可提取的文字。如果你只想取其中很短的一段，也可以参考PDF 文字无法复制怎么办这篇指南。

如果你还需要把文档做回 PDF、且文字是嵌进去的（这样别人也能搜索、选中），那就需要一个能生成「可检索 PDF」的工具——它把 OCR 出来的文字层放在图像背后，既保留了原本的视觉外观，又让文字变得可选。Adobe Acrobat 在这方面做得很好，一些专用 OCR 工具也提供这个功能。

故障排查

提取出来的文字错误一大堆。 多半是源图分辨率低、对比度低，或者含有特殊字体。先试着改善图片——提高对比度、只裁出文字区域，或以更高分辨率重新扫描。

文字顺序乱了。 多栏排版和复杂页面设计，可能让 OCR 引擎搞不清阅读顺序。如果文字提取出来了、但段落是错乱的，你可能需要每次只提取一小块——一栏、一块、一段。

特殊字符或符号识别错误。 OCR 引擎对标准字母文字处理得最好。数学符号、货币符号和特殊标点更难识别，可能变成错误的字符。这些地方要仔细校对。

非拉丁文字准确度偏低。 中文、日文、韩文、阿拉伯文等非拉丁文字的 OCR 虽有进步，但整体仍不如拉丁文字识别那么准。请确认你的 OCR 工具支持对应的具体语言，并已装好相关语言包。

手写完全识别不出来。 并不是每个 OCR 引擎都支持手写。支持的那些，通常也要求手写相当工整、一致。如果你需要经常把手写笔记数字化，就找一个明确标榜支持手写识别的工具。

常见问题（FAQ）

Windows 自带功能能从图片里提取文字吗？

没有哪个一眼就能找到的内置功能能做到这件事。装上 PowerToys 文本提取器后会有这个能力，新版截图工具的「文本操作」也能做，OneNote 还藏着一个 OCR 功能。但开箱即用、一键搞定的方案是没有的。

OCR 准确到不用校对也能放心用吗？

对于清晰、高分辨率的印刷体图片，准确度通常在 99% 以上。但对于画质较差的图片、手写体或特殊字体，请务必校对。重要文档绝不要默认 OCR 结果完美无误。

能从手机拍的照片里提取文字吗？

能。准确度取决于照片质量。光线好、对焦稳、正对着拍，效果最好。模糊或带角度的照片，错误会更多。

OCR 支持手写吗？

某种程度上支持。常见文字里工整、一致的手写体，能以尚可的准确度识别出来。潦草的手写、生僻文字或高度花体的书写，对所有 OCR 工具来说都仍是难题。

能从视频或实时画面里提取文字吗？

不能直接做。你得先把含有目标文字的那一帧截下图，再对这张截图跑 OCR。有些录屏工具支持把某一帧定格下来，正好可以用在这里。

多语言文字怎么提取？

大多数现代 OCR 工具都支持几十种语言。如果图里同时有不止一种语言，有些工具会自动处理，另一些则需要你事先指定语言。多语言支持，正是专用 OCR 工具往往胜过内置方案的地方之一。

参考链接

Microsoft PowerToys 文本提取器：learn.microsoft.com（PowerToys Text Extractor）
用截图工具捕获屏幕截图（Microsoft 支持）：support.microsoft.com
在 OneNote 中用 OCR 从图片复制文本（Microsoft 支持）：support.microsoft.com
维基百科——光学字符识别：zh.wikipedia.org

总结

从图片里提取文字，本身已经是个被解决了的问题——工具齐全、准确度高、过程也快。真正要权衡的，只是哪种方式契合你用它的频率，以及你想要多顺手的体验。偶尔快速抓一下，PowerToys 或截图工具的「文本操作」就够用；如果你本来就在 OneNote 里，那个藏着的功能也能派上用场。而对任何更经常的需求，OCR Text Recognition Tool 提供免费额度、支持多语言，流程也直截了当——打开图片、提取、复制。如果你更想要一款随手框选屏幕、即截即识的工具，Screenie OCR 也值得纳入考虑。

不管你选哪一个，都别再对着截图一个字一个字地重打了。人生苦短，何必如此。