使用教程

Windows 上怎么从图片或截图里提取文字(2026 完整指南)

在 Windows 上用 OCR 从截图中提取文字

文字就明明白白地摆在屏幕上——一张截图、一张白板的照片、一份扫描件、别人发你的一张菜谱图片。眼睛能读得清清楚楚,可一旦想复制,却什么反应都没有。文字被锁在了图片里,Windows 把整张图当成一整块像素,而不是一段可读的文字。

这是那种「按理早该被解决」的日常小烦恼。你能让手机从照片里认出一株植物,可想从截图里复制一个电话号码,要么手动重新打一遍,要么得找对工具。

解决它的技术叫 OCR——光学字符识别(Optical Character Recognition)。这项技术已经存在了几十年,但在最近几年里进步神速。问题不在于它好不好用(它确实好用),而在于:针对你要做的事,哪种方式最合适。

先说结论: Windows 自带几种从图片里提取文字的方式,但都比较有限,而且入口往往不明显。如果想稳定地从截图、照片和扫描件里提取文字,OCR Text Recognition Tool 这类来自 Microsoft Store 的专用 OCR 工具几乎不用设置就能搞定——打开图片、提取文字、复制即可。如果只是偶尔用一下,Windows 自带的 PowerToys「文本提取器」(Text Extractor)也值得了解。


OCR 到底做了什么

OCR 是分析一张图片、识别其中字符、再把它们转换成可以选中、复制、编辑的文字的过程。概括来说,软件会观察图片里的形状,把它们和已知的字符样式做比对,再给出对每个字符的最佳猜测。

现代 OCR 早已不止是简单的样式匹配。如今的识别引擎用的是能理解上下文的机器学习模型——它们知道在某些字体里「rn」和「m」看起来几乎一模一样,于是会借助周围的词来判断到底是哪一个。它们能处理倾斜的文字、不均匀的光照、手写字符(程度不一),以及同一页上的多种语言。

识别准确度取决于几个因素:源图清不清晰、文字用的什么字体、是印刷体还是手写体,以及图里有多少干扰杂讯。一张干净的文档截图,几乎能完美转换;而一张在昏暗光线下拍的、皱巴巴的小票照片,则是个更难啃的问题。


📊 Windows 上的 OCR 方法对比

方法 费用 适合场景 多语言
OCR Text Recognition Tool 有免费额度/之后为实惠的订阅 稳定的日常文字提取,支持多语言 支持
PowerToys 文本提取器 免费 已在用 PowerToys 时的临时取词 有限
Google Lens(网页版) 免费 在浏览器里从图片快速取词 支持
OneNote OCR 有 Microsoft 账号即免费 已在微软生态里的用户 支持
Adobe Acrobat Pro 按月付费订阅 对扫描版 PDF 做专业 OCR 支持

哪些场景下你会需要它

在挑工具之前,先理解几种常见情形会很有帮助。大家搜「提取文字」的理由其实五花八门,而最合适的做法,取决于你面对的是哪一种。

错误信息或代码的截图。 同事丢给你一张报错截图。你需要搜索那段报错文字,或者把它粘到工单里。一个字符一个字符地重打一段堆栈跟踪,既烦人又容易出错。OCR 几秒钟就能把原文一字不差地提取出来。

扫描的文档。 你手上有一份扫描的合同、一张小票照片,或者一个「每页其实都是图片」的 PDF。屏幕上看着一切正常,可什么都选不中。OCR 能把图片转成真正可复制、可检索的文字。

印刷材料的照片。 书里的一页、开完会的白板、一张营养成分表、一块外语路牌。任何时候只要你能把文字拍下来、却没法数字化选中,OCR 就是那座桥。

被困在图片里的数据。 有人把一张表格当截图发给你,而不是发表格文件。一张图表上有你要引用的标签。一页演示幻灯片上有你想引用的文字。这些都需要从图片里把文字提取出来,而不是去拿底层的源文件。

另一种语言的文字。 你有一张图,上面是你看不懂的语言。先把文字提取出来再翻译,往往比直接对着图片翻译更靠谱——因为翻译工具在输入是干净文字时表现更好。


方法一:PowerToys 文本提取器

Microsoft PowerToys 是一套免费的 Windows 实用工具合集,其中之一——文本提取器(Text Extractor)——就能做基础的 OCR。如果你已经装了 PowerToys,可以马上用起来。按下 Win + Shift + T,再框选你想提取的文字区域,识别出来的文字会直接进入剪贴板。

对于标准语言、清晰且光线良好的文字,它表现不错。它的短板在于复杂图片、多语言内容,或是你需要对整个过程有更多掌控的场景。它没有「识别结果预览」,没法在复制前纠错,而且支持哪些语言,取决于你在 Windows 上装了哪些 OCR 语言包。

用来快速、偶尔取一下词——从截图里抓一行字、从图里复制一个地址——它出乎意料地好用。再复杂一点,就显得力不从心了。

如果还没装 PowerToys,可以从 Microsoft Store 或 GitHub 获取。安装很简单,只是装下来的是整套 PowerToys,而不只是 OCR 这一项功能。

顺带一提:Windows 11 自带的截图工具(Snipping Tool)现在也内置了类似能力。按下经典的 Win + Shift + S 截图后,在弹出的工具栏里选「文本操作」(Text actions)图标,框选区域即可提取其中文字,还能「复制为表格」、或快速隐去其中的邮箱和电话号码。整个识别过程都在本机完成。如果你只是想偶尔取一下词,又不想额外装东西,这是个顺手的内置选项。


方法二:专用 OCR 应用

如果提取文字对你来说不只是「偶尔为之」,那么专用 OCR 应用是更实际的选择。它的流程更简单:打开图片、点一下提取,识别出来的文字就出现在那里,随时可复制。不用记快捷键,不用在屏幕上框选,也不用粘到别处去才知道这次到底有没有提取成功。

专用应用通常也更擅长处理边角情况——混合语言的图片、歪斜角度的文字、画质较差的照片、带背景杂讯的扫描件。它们把全部工程精力都投入到 OCR 这条流水线上,在难处理的输入上,准确度的差距就体现出来了。

有些 OCR 应用并非全部在本机处理,而是通过云端识别引擎来完成。这是一种现实的设计取舍:云端引擎用海量得多的数据训练,往往更准,尤其是在手写体、生僻字体和非拉丁文字上。代价是图片会短暂离开你的设备去做处理。对大多数用途——从截图里取词、读一张扫描小票——这都不是问题;但如果你处理的是机密材料,就值得了解这一点。


方法三:OneNote 里藏着的 OCR 功能

OneNote 内置了 OCR,只是不太显眼。把一张图片粘贴或插入到 OneNote 页面里,右键它,选「从图片中复制文本」。OneNote 会处理这张图,并把识别出来的文字复制到剪贴板。

对于清晰的图片和印刷体文字,准确度还不错。缺点在于流程:你得打开 OneNote,新建或切换到某一页,插入图片,等它处理一下,再右键。如果你本来就在用 OneNote 做别的事,这是个挺巧妙的小技巧;但如果你不用,单单为了从图里取个词就专门打开一个笔记应用,就显得有点绕。

还有个小怪癖:OneNote 有时需要几秒钟才能处理完图片,「复制文本」选项才会出现。如果你刚插入就立刻右键,那个选项可能还没冒出来。


方法四:浏览器里的 Google Lens

Google Lens 能直接在 Chrome 里从图片提取文字。在网页上的任意图片上右键,选「使用 Google 智能镜头搜索图片」,再切到「文字」模式,就能选中并复制识别出来的文字。

对于本来就在浏览器里的图片——发在某个网站上的截图、一段文档预览、一张内嵌图片——这很方便,因为什么都不用装。但对于桌面上或文件夹里的图片,你得先把它们拖进浏览器,这就多了一步。

它的 OCR 质量很强,尤其是在多语言上。Google 的识别引擎是目前最好的之一,Lens 也沾了同一套技术的光。局限在于它只能在 Chrome 里用,而且需要联网。


哪些因素会影响 OCR 准确度

无论你用哪种工具,并不是所有图片都能得到一样的结果。理解这些因素,有助于你建立合理预期,并在条件允许时先改善源图再去提取。

分辨率很重要。 分辨率更高的图片,OCR 结果更好。一张 300 DPI 的扫描件几乎能完美转换;一张 72 DPI、文字又小的截图,则可能出错。如果源头由你掌控,就用你能做到的最高分辨率去采集。

对比度比颜色更要紧。 OCR 引擎在处理前,会先在内部把图片转成高对比度。白底黑字效果最好。浅灰底配上稍浅一点的灰字——那种你眼睛看着没问题的搭配——反而可能让引擎犯难,因为对比度太低了。

端正的文字比歪斜的好认。 如果你在拍一页纸,尽量正对着拍,而不是斜着拍。现代 OCR 能容忍一定的倾斜,但每多一度旋转,准确度就会稍微下降一点。如果是做扫描,用平板扫描仪会比手机相机得到更干净的结果。

印刷体 vs 手写体。 标准字体的印刷体转换非常准——清晰图片可达 99% 以上。手写识别进步很大,但仍因人而异。工整、一致的手写体效果尚可;潦草的手写或特殊风格,对任何 OCR 引擎来说都还是难题。

杂讯与瑕疵。 污渍、咖啡渍、折痕、压缩瑕疵,都会拉低准确度。尤其是 JPEG 压缩,可能把字符边缘糊掉那么一点点,从而导致误读。如果源头是一张被高度压缩的图片,OCR 引擎能利用的信息就更少。


应对扫描版 PDF

提取文字这个问题里,有一种特殊变体:扫描版 PDF。这种 PDF 里,每一页其实都是一张照片——查看时文字看着很正常,可一选就什么都高亮不了。PDF 阅读器把每一页都当成一整张图片。

想判断一个 PDF 是扫描件还是文字版,有个快捷办法:打开它,用光标点击拖动去选一个词。如果能逐个词高亮,那就是文字版,不需要 OCR——直接复制文字就行。如果什么都高亮不了、或者整页被当作一块选中,那就是扫描件。

对扫描版 PDF,做法和处理任何图片一样:对它跑一遍 OCR。有些 OCR 工具能直接接收 PDF 文件,把每一页都当作图片来处理;另一些则需要你先把 PDF 各页转成图片。无论哪种方式,最终得到的都是可提取的文字。如果你只想取其中很短的一段,也可以参考PDF 文字无法复制怎么办这篇指南。

如果你还需要把文档做回 PDF、且文字是嵌进去的(这样别人也能搜索、选中),那就需要一个能生成「可检索 PDF」的工具——它把 OCR 出来的文字层放在图像背后,既保留了原本的视觉外观,又让文字变得可选。Adobe Acrobat 在这方面做得很好,一些专用 OCR 工具也提供这个功能。


故障排查

提取出来的文字错误一大堆。 多半是源图分辨率低、对比度低,或者含有特殊字体。先试着改善图片——提高对比度、只裁出文字区域,或以更高分辨率重新扫描。

文字顺序乱了。 多栏排版和复杂页面设计,可能让 OCR 引擎搞不清阅读顺序。如果文字提取出来了、但段落是错乱的,你可能需要每次只提取一小块——一栏、一块、一段。

特殊字符或符号识别错误。 OCR 引擎对标准字母文字处理得最好。数学符号、货币符号和特殊标点更难识别,可能变成错误的字符。这些地方要仔细校对。

非拉丁文字准确度偏低。 中文、日文、韩文、阿拉伯文等非拉丁文字的 OCR 虽有进步,但整体仍不如拉丁文字识别那么准。请确认你的 OCR 工具支持对应的具体语言,并已装好相关语言包。

手写完全识别不出来。 并不是每个 OCR 引擎都支持手写。支持的那些,通常也要求手写相当工整、一致。如果你需要经常把手写笔记数字化,就找一个明确标榜支持手写识别的工具。


常见问题(FAQ)

Windows 自带功能能从图片里提取文字吗?

没有哪个一眼就能找到的内置功能能做到这件事。装上 PowerToys 文本提取器后会有这个能力,新版截图工具的「文本操作」也能做,OneNote 还藏着一个 OCR 功能。但开箱即用、一键搞定的方案是没有的。

OCR 准确到不用校对也能放心用吗?

对于清晰、高分辨率的印刷体图片,准确度通常在 99% 以上。但对于画质较差的图片、手写体或特殊字体,请务必校对。重要文档绝不要默认 OCR 结果完美无误。

能从手机拍的照片里提取文字吗?

能。准确度取决于照片质量。光线好、对焦稳、正对着拍,效果最好。模糊或带角度的照片,错误会更多。

OCR 支持手写吗?

某种程度上支持。常见文字里工整、一致的手写体,能以尚可的准确度识别出来。潦草的手写、生僻文字或高度花体的书写,对所有 OCR 工具来说都仍是难题。

能从视频或实时画面里提取文字吗?

不能直接做。你得先把含有目标文字的那一帧截下图,再对这张截图跑 OCR。有些录屏工具支持把某一帧定格下来,正好可以用在这里。

多语言文字怎么提取?

大多数现代 OCR 工具都支持几十种语言。如果图里同时有不止一种语言,有些工具会自动处理,另一些则需要你事先指定语言。多语言支持,正是专用 OCR 工具往往胜过内置方案的地方之一。


参考链接


总结

从图片里提取文字,本身已经是个被解决了的问题——工具齐全、准确度高、过程也快。真正要权衡的,只是哪种方式契合你用它的频率,以及你想要多顺手的体验。偶尔快速抓一下,PowerToys 或截图工具的「文本操作」就够用;如果你本来就在 OneNote 里,那个藏着的功能也能派上用场。而对任何更经常的需求,OCR Text Recognition Tool 提供免费额度、支持多语言,流程也直截了当——打开图片、提取、复制。如果你更想要一款随手框选屏幕、即截即识的工具,Screenie OCR 也值得纳入考虑。

不管你选哪一个,都别再对着截图一个字一个字地重打了。人生苦短,何必如此。