如何從圖片中擷取文字

文字就明明白白地擺在螢幕上——一張截圖、一張白板的照片、一份掃描檔、別人傳你的一張菜單圖片。眼睛能讀得清清楚楚，可一旦想複製，卻什麼反應都沒有。文字被鎖在了圖片裡，Windows 把整張圖當成一整塊像素，而不是一段可讀的文字。

這是那種「按理早該被解決」的日常小煩惱。你能讓手機從照片裡認出一株植物，可想從截圖裡複製一個電話號碼，要麼手動重新打一遍，要麼得找對工具。

解決它的技術叫 OCR——光學字元辨識（Optical Character Recognition）。這項技術已經存在了幾十年，但在最近幾年裡進步神速。問題不在於它好不好用（它確實好用），而在於：針對你要做的事，哪種方式最合適。

先說結論： Windows 內建幾種從圖片裡擷取文字的方式，但都比較有限，而且入口往往不明顯。如果想穩定地從截圖、照片和掃描檔裡擷取文字，OCR Text Recognition Tool 這類來自 Microsoft Store 的專用 OCR 工具幾乎不用設定就能搞定——開啟圖片、擷取文字、複製即可。如果只是偶爾用一下，Windows 內建的 PowerToys「文字擷取器」（Text Extractor）也值得了解。

OCR 到底做了什麼

OCR 是分析一張圖片、辨識其中字元、再把它們轉換成可以選取、複製、編輯的文字的過程。概括來說，軟體會觀察圖片裡的形狀，把它們和已知的字元樣式做比對，再給出對每個字元的最佳猜測。

現代 OCR 早已不止是簡單的樣式比對。如今的辨識引擎用的是能理解上下文的機器學習模型——它們知道在某些字型裡「rn」和「m」看起來幾乎一模一樣，於是會借助周圍的詞來判斷到底是哪一個。它們能處理傾斜的文字、不均勻的光照、手寫字元（程度不一），以及同一頁上的多種語言。

辨識準確度取決於幾個因素：原圖清不清晰、文字用的什麼字型、是印刷體還是手寫體，以及圖裡有多少干擾雜訊。一張乾淨的文件截圖，幾乎能完美轉換；而一張在昏暗光線下拍的、皺巴巴的小票照片，則是個更難啃的問題。

📊 Windows 上的 OCR 方法比較

方法	費用	適合情境	多語言
OCR Text Recognition Tool	有免費額度／之後為實惠的訂閱	穩定的日常文字擷取，支援多語言	支援
PowerToys 文字擷取器	免費	已在用 PowerToys 時的臨時取詞	有限
Google Lens（網頁版）	免費	在瀏覽器裡從圖片快速取詞	支援
OneNote OCR	有 Microsoft 帳號即免費	已在微軟生態裡的使用者	支援
Adobe Acrobat Pro	按月付費訂閱	對掃描版 PDF 做專業 OCR	支援

哪些情境下你會需要它

在挑工具之前，先理解幾種常見情形會很有幫助。大家搜「擷取文字」的理由其實五花八門，而最合適的做法，取決於你面對的是哪一種。

錯誤訊息或程式碼的截圖。 同事丟給你一張報錯截圖。你需要搜尋那段報錯文字，或者把它貼到工單裡。一個字元一個字元地重打一段堆疊追蹤，既煩人又容易出錯。OCR 幾秒鐘就能把原文一字不差地擷取出來。

掃描的文件。 你手上有一份掃描的合約、一張小票照片，或者一個「每頁其實都是圖片」的 PDF。螢幕上看著一切正常，可什麼都選不中。OCR 能把圖片轉成真正可複製、可檢索的文字。

印刷材料的照片。 書裡的一頁、開完會的白板、一張營養成分表、一塊外語路牌。任何時候只要你能把文字拍下來、卻沒法數位化選中，OCR 就是那座橋。

被困在圖片裡的資料。 有人把一張表格當截圖傳給你，而不是傳表格檔案。一張圖表上有你要引用的標籤。一頁簡報投影片上有你想引用的文字。這些都需要從圖片裡把文字擷取出來，而不是去拿底層的原始檔案。

另一種語言的文字。 你有一張圖，上面是你看不懂的語言。先把文字擷取出來再翻譯，往往比直接對著圖片翻譯更靠譜——因為翻譯工具在輸入是乾淨文字時表現更好。

方法一：PowerToys 文字擷取器

Microsoft PowerToys 是一套免費的 Windows 實用工具合集，其中之一——文字擷取器（Text Extractor）——就能做基礎的 OCR。如果你已經裝了 PowerToys，可以馬上用起來。按下 Win + Shift + T，再框選你想擷取的文字區域，辨識出來的文字會直接進入剪貼簿。

對於標準語言、清晰且光線良好的文字，它表現不錯。它的短板在於複雜圖片、多語言內容，或是你需要對整個過程有更多掌控的場景。它沒有「辨識結果預覽」，沒法在複製前糾錯，而且支援哪些語言，取決於你在 Windows 上裝了哪些 OCR 語言包。

用來快速、偶爾取一下詞——從截圖裡抓一行字、從圖裡複製一個地址——它出乎意料地好用。再複雜一點，就顯得力不從心了。

如果還沒裝 PowerToys，可以從 Microsoft Store 或 GitHub 取得。安裝很簡單，只是裝下來的是整套 PowerToys，而不只是 OCR 這一項功能。

順帶一提：Windows 11 內建的截圖工具（Snipping Tool）現在也內建了類似能力。按下經典的 Win + Shift + S 截圖後，在彈出的工具列裡選「文字動作」（Text actions）圖示，框選區域即可擷取其中文字，還能「複製為表格」、或快速隱去其中的電子郵件和電話號碼。整個辨識過程都在本機完成。如果你只是想偶爾取一下詞，又不想額外裝東西，這是個順手的內建選項。

方法二：專用 OCR 應用程式

如果擷取文字對你來說不只是「偶爾為之」，那麼專用 OCR 應用程式是更實際的選擇。它的流程更簡單：開啟圖片、點一下擷取，辨識出來的文字就出現在那裡，隨時可複製。不用記快捷鍵，不用在螢幕上框選，也不用貼到別處去才知道這次到底有沒有擷取成功。

專用應用程式通常也更擅長處理邊角情況——混合語言的圖片、歪斜角度的文字、畫質較差的照片、帶背景雜訊的掃描檔。它們把全部工程心力都投入到 OCR 這條流水線上，在難處理的輸入上，準確度的差距就體現出來了。

有些 OCR 應用程式並非全部在本機處理，而是透過雲端辨識引擎來完成。這是一種現實的設計取捨：雲端引擎用海量得多的資料訓練，往往更準，尤其是在手寫體、生僻字型和非拉丁文字上。代價是圖片會短暫離開你的裝置去做處理。對大多數用途——從截圖裡取詞、讀一張掃描小票——這都不是問題；但如果你處理的是機密材料，就值得了解這一點。

方法三：OneNote 裡藏著的 OCR 功能

OneNote 內建了 OCR，只是不太顯眼。把一張圖片貼上或插入到 OneNote 頁面裡，按右鍵，選「從圖片複製文字」。OneNote 會處理這張圖，並把辨識出來的文字複製到剪貼簿。

對於清晰的圖片和印刷體文字，準確度還不錯。缺點在於流程：你得開啟 OneNote，新增或切換到某一頁，插入圖片，等它處理一下，再按右鍵。如果你本來就在用 OneNote 做別的事，這是個挺巧妙的小技巧；但如果你不用，單單為了從圖裡取個詞就專門開啟一個筆記應用程式，就顯得有點繞。

還有個小怪癖：OneNote 有時需要幾秒鐘才能處理完圖片，「複製文字」選項才會出現。如果你剛插入就立刻按右鍵，那個選項可能還沒冒出來。

方法四：瀏覽器裡的 Google Lens

Google Lens 能直接在 Chrome 裡從圖片擷取文字。在網頁上的任意圖片上按右鍵，選「使用 Google 智慧鏡頭搜尋圖片」，再切到「文字」模式，就能選取並複製辨識出來的文字。

對於本來就在瀏覽器裡的圖片——發在某個網站上的截圖、一段文件預覽、一張內嵌圖片——這很方便，因為什麼都不用裝。但對於桌面上或資料夾裡的圖片，你得先把它們拖進瀏覽器，這就多了一步。

它的 OCR 品質很強，尤其是在多語言上。Google 的辨識引擎是目前最好的之一，Lens 也沾了同一套技術的光。侷限在於它只能在 Chrome 裡用，而且需要連網。

哪些因素會影響 OCR 準確度

無論你用哪種工具，並不是所有圖片都能得到一樣的結果。理解這些因素，有助於你建立合理預期，並在條件允許時先改善原圖再去擷取。

解析度很重要。 解析度更高的圖片，OCR 結果更好。一張 300 DPI 的掃描檔幾乎能完美轉換；一張 72 DPI、文字又小的截圖，則可能出錯。如果源頭由你掌控，就用你能做到的最高解析度去擷取。

對比度比顏色更要緊。 OCR 引擎在處理前，會先在內部把圖片轉成高對比度。白底黑字效果最好。淺灰底配上稍淺一點的灰字——那種你眼睛看著沒問題的搭配——反而可能讓引擎犯難，因為對比度太低了。

端正的文字比歪斜的好認。 如果你在拍一頁紙，盡量正對著拍，而不是斜著拍。現代 OCR 能容忍一定的傾斜，但每多一度旋轉，準確度就會稍微下降一點。如果是做掃描，用平台式掃描器會比手機相機得到更乾淨的結果。

印刷體 vs 手寫體。 標準字型的印刷體轉換非常準——清晰圖片可達 99% 以上。手寫辨識進步很大，但仍因人而異。工整、一致的手寫體效果尚可；潦草的手寫或特殊風格，對任何 OCR 引擎來說都還是難題。

雜訊與瑕疵。 汙漬、咖啡漬、摺痕、壓縮瑕疵，都會拉低準確度。尤其是 JPEG 壓縮，可能把字元邊緣糊掉那麼一點點，從而導致誤讀。如果源頭是一張被高度壓縮的圖片，OCR 引擎能利用的資訊就更少。

應對掃描版 PDF

擷取文字這個問題裡，有一種特殊變體：掃描版 PDF。這種 PDF 裡，每一頁其實都是一張照片——檢視時文字看著很正常，可一選就什麼都標示不了。PDF 檢視器把每一頁都當成一整張圖片。

想判斷一個 PDF 是掃描檔還是文字版，有個快捷辦法：開啟它，用游標點擊拖動去選一個詞。如果能逐個詞標示，那就是文字版，不需要 OCR——直接複製文字就行。如果什麼都標示不了、或者整頁被當作一塊選取，那就是掃描檔。

對掃描版 PDF，做法和處理任何圖片一樣：對它跑一遍 OCR。有些 OCR 工具能直接接收 PDF 檔案，把每一頁都當作圖片來處理；另一些則需要你先把 PDF 各頁轉成圖片。無論哪種方式，最終得到的都是可擷取的文字。如果你只想取其中很短的一段，也可以參考PDF 文字無法複製怎麼辦這篇指南。

如果你還需要把文件做回 PDF、且文字是嵌進去的（這樣別人也能搜尋、選取），那就需要一個能產生「可檢索 PDF」的工具——它把 OCR 出來的文字層放在影像背後，既保留了原本的視覺外觀，又讓文字變得可選。Adobe Acrobat 在這方面做得很好，一些專用 OCR 工具也提供這個功能。

疑難排解

擷取出來的文字錯誤一大堆。 多半是原圖解析度低、對比度低，或者含有特殊字型。先試著改善圖片——提高對比度、只裁出文字區域，或以更高解析度重新掃描。

文字順序亂了。 多欄排版和複雜頁面設計，可能讓 OCR 引擎搞不清閱讀順序。如果文字擷取出來了、但段落是錯亂的，你可能需要每次只擷取一小塊——一欄、一塊、一段。

特殊字元或符號辨識錯誤。 OCR 引擎對標準字母文字處理得最好。數學符號、貨幣符號和特殊標點更難辨識，可能變成錯誤的字元。這些地方要仔細校對。

非拉丁文字準確度偏低。 中文、日文、韓文、阿拉伯文等非拉丁文字的 OCR 雖有進步，但整體仍不如拉丁文字辨識那麼準。請確認你的 OCR 工具支援對應的具體語言，並已裝好相關語言包。

手寫完全辨識不出來。 並不是每個 OCR 引擎都支援手寫。支援的那些，通常也要求手寫相當工整、一致。如果你需要經常把手寫筆記數位化，就找一個明確標榜支援手寫辨識的工具。

常見問題（FAQ）

Windows 內建功能能從圖片裡擷取文字嗎？

沒有哪個一眼就能找到的內建功能能做到這件事。裝上 PowerToys 文字擷取器後會有這個能力，新版截圖工具的「文字動作」也能做，OneNote 還藏著一個 OCR 功能。但開箱即用、一鍵搞定的方案是沒有的。

OCR 準確到不用校對也能放心用嗎？

對於清晰、高解析度的印刷體圖片，準確度通常在 99% 以上。但對於畫質較差的圖片、手寫體或特殊字型，請務必校對。重要文件絕不要預設 OCR 結果完美無誤。

能從手機拍的照片裡擷取文字嗎？

能。準確度取決於照片品質。光線好、對焦穩、正對著拍，效果最好。模糊或帶角度的照片，錯誤會更多。

OCR 支援手寫嗎？

某種程度上支援。常見文字裡工整、一致的手寫體，能以尚可的準確度辨識出來。潦草的手寫、生僻文字或高度花體的書寫，對所有 OCR 工具來說都仍是難題。

能從影片或即時畫面裡擷取文字嗎？

不能直接做。你得先把含有目標文字的那一格擷下圖，再對這張截圖跑 OCR。有些錄影工具支援把某一格定格下來，正好可以用在這裡。

多語言文字怎麼擷取？

大多數現代 OCR 工具都支援幾十種語言。如果圖裡同時有不止一種語言，有些工具會自動處理，另一些則需要你事先指定語言。多語言支援，正是專用 OCR 工具往往勝過內建方案的地方之一。

參考連結

Microsoft PowerToys 文字擷取器：learn.microsoft.com（PowerToys Text Extractor）
用截圖工具擷取螢幕截圖（Microsoft 支援）：support.microsoft.com
在 OneNote 中用 OCR 從圖片複製文字（Microsoft 支援）：support.microsoft.com
維基百科——光學字元辨識：zh.wikipedia.org

總結

從圖片裡擷取文字，本身已經是個被解決了的問題——工具齊全、準確度高、過程也快。真正要權衡的，只是哪種方式契合你用它的頻率，以及你想要多順手的體驗。偶爾快速抓一下，PowerToys 或截圖工具的「文字動作」就夠用；如果你本來就在 OneNote 裡，那個藏著的功能也能派上用場。而對任何更經常的需求，OCR Text Recognition Tool 提供免費額度、支援多語言，流程也直截了當——開啟圖片、擷取、複製。如果你更想要一款隨手框選螢幕、即截即辨的工具，Screenie OCR 也值得納入考慮。

不管你選哪一個，都別再對著截圖一個字一個字地重打了。人生苦短，何必如此。