Home AI在建築中的應用 建築圖也能自動讀?OCR實測辨識效果大公開

建築圖也能自動讀?OCR實測辨識效果大公開

前言

在建築設計與製圖的流程中,常常需要從圖面中讀取各種註記、圖名、尺寸標註等資訊。這些工作大多仰賴人工識圖,不僅耗時,也容易發生錯誤。於是我開始思考:能不能透過 AI 的 OCR 技術,讓電腦自動「看圖識字」,幫忙處理這些重複性的工作?

本文記錄了我嘗試將 OCR 技術應用於建築平面圖的初步實驗過程。雖然結果尚未達到實用階段,但這些探索經驗揭示了現階段技術的限制與潛在可能性,值得作為未來改進與深入研究的參考。

實測 PaddleOCR 應用於建築平面圖識圖

🔍 什麼是 OCR?

OCR,全名為 「光學字元辨識」(Optical Character Recognition),是一種讓電腦能從影像中自動識別並轉換文字的技術。它可用於將掃描文件、照片、PDF 等圖像中的文字內容,轉為可編輯、可搜尋的數位文字資訊,是文書數位化流程的重要工具之一。而在建築領域中,我認為 OCR 具有潛力應用於自動擷取圖面上的圖名、註記、編號、樓層資訊、尺寸標註等資訊,甚至作為未來 BIM 自動化處理的一環。

🛠 OCR 實驗流程與工具設定

01. 工具的選擇

本次實驗我採用了 PaddleOCR,這是一套開源且支援中英文混合辨識的 OCR 工具,它是由百度(Baidu)基於其深度學習框架 PaddlePaddle(飛槳) 所建構。PaddleOCR 雖非專門針對建築應用設計,但其高度模組化與開源特性,對於建築圖這類結構複雜、混合文字與線條的圖像而言,是一個具有潛力、且值得嘗試的選擇。

不過它也提供了多種模型規格,例如 PP-OCRv3, PP-OCRv4, Mobile(行動版), Server(伺服器版), Slim(輕量版), Infer(標準版)…等,而在本次實驗中,我主要選用 PP-OCRv3 系列模型進行測試,並根據不同需求分別嘗試了 infer與 slim 的模型,以評估其在建築圖面上的辨識表現。

02. 資料前處理

由於 PaddleOCR 主要輸入格式為圖片檔(如 PNG、JPG),因此在本次實驗中,我先將常見的建築圖紙 PDF 轉換為 PNG 格式,再進行後續的 OCR 辨識處理。在轉檔過程中,為避免轉成圖片後文字過小或模糊而影響辨識準確度,實驗中多以 300dpi 為基準進行轉換。這個轉換步驟也是實務上常見的預處理流程,尤其當圖紙來源為掃描檔或數位 PDF 文件時。

⚠️ OCR 實測結果與建築圖面挑戰分析

◎ 實測結果

標準模型(Infer)辨識結果較為準確,但如果設備效能有限,簡化模型(Slim)其實也很夠用,在批次處理的速度上會跑得比較快,且輸出結果與標準模型也僅稍有準確度上的差異。

項目標準模型(Infer)簡化模型(Slim)
辨識文字數量4,6104,471
平均信度分數0.89570.8894
(實驗資料來源:建築製圖應用-電繪項丙級技能檢定題庫圖說)

◎ 挑戰與改進

01. 繁體中文的設定

由於 PaddleOCR 是由百度公司所開發,因此大多還是支援簡體中文,如果要讀取繁體中文,則內建參數 lang 需設置為’chinese_cht’ 而非 ‘ch’

02. 資料的後處理

PaddleOCR 內建 draw_ocr 函數雖可繪製可視化的檢測結果位置,但對於進一步自動化識圖流程(如文字區塊定位、資料表整理、與圖面要素對應)較難直接應用。

因此,我規劃將每個偵測出的文字框,額外輸出其在圖面上的座標位置(例如文字框中心座標),並建立對應的文字與位置清單,以利後續自動化處理、欄位分類或與建築圖面特定區塊進行對接。這樣的處理方式也能為後續與建築構件自動對應、表格結構還原或 BIM 資料建構奠定基礎。

辨識文字區塊後處理定位

03. 文字辨識的準確率

從實驗結果來看,由於 PaddleOCR 的輸入格式以圖片為主,因此圖像的解析度與清晰度對文字辨識的準確率有明顯影響。解析度過低時,文字邊緣模糊,容易造成辨識錯誤;但即使圖像品質達標,相似字誤判的問題仍相當明顯,顯示目前的開源模型在處理建築圖面這類專業文本上,仍存在一定挑戰。

04. 尺寸標註讀取的不適用性

建築圖中的尺寸標註(例如長度、標高、標線文字)往往以細小的數字搭配箭頭、延伸線、記號等元素呈現,且與構造線條密集交錯。實驗中發現,大多數尺寸標註仍無法被模型正確框出,或完全未被識別。這顯示現有的開源 OCR 模型在處理這類結構化且符號混雜的標註資訊時,仍有明顯的技術限制。

相似字與標註文字誤判的示例 (如主歐室/主臥室;標註線文字分段誤判等)
部分文字未被正確識別的示例—辨識準確率待加強

💡 OCR 自動識圖的改善策略與未來方向

本次實驗顯示,雖然 OCR 技術在標準文件或掃描圖像中的應用已相當成熟,但當應用場景轉換為建築圖面這類結構複雜、元素混雜的圖像時,辨識結果便容易出現準確率不足、相似字誤判等問題。

01. 可行的改善方向:客製化模型訓練

透過建立建築圖專屬的資料集,針對文字樣式、位置分布進行微調(fine-tuning),可望有效提升辨識準確率。

02. 對於尺寸標註的建議:嘗試使用 EZDXF 擷取標註文字資料

針對尺寸標註線上的數值辨識困難問題,我規劃另以 EZDXF 對 DXF 圖面檔進行實驗,嘗試直接擷取DXF 向量圖面中擷取尺寸標註數值,作為替代辨識方案。目前此方向仍在初步實驗階段,尚未完成系統性的測試與驗證,後續若有實作成果,將另行整理與分享。

📘 結語:AI + 建築製圖的實驗起點

雖然這次的 OCR 實驗結果尚未達到實用階段,但整個過程讓我更深入理解了建築圖面結構與 AI 技術整合之間的挑戰,也累積了後續實作與研究的經驗基礎。通過本文實驗分享,獻給也在嘗試將 AI 技術導入建築流程的朋友們。希望我們都能持續嘗試、持續調整,最終讓這些技術從實驗走入現場,真正改變我們的工作方式。

You may also like