YOLO 建築圖面實驗筆記｜04：營建圖紙分類的適用性檢討

2026-02-06

# 建築圖面分類 × YOLO 影像辨識的實務實驗紀錄

在前三篇分別針對鋼構圖、結構圖、建築圖進行了YOLO圖紙分類實驗，但卻發現「明明都是按平面圖、立面圖、詳細圖等類型作標註分類」，為什麼卻出現了以下幾個結論？

根據前面的實驗結果，圖紙的分類好像並不那樣穩定？所以，為了確認 YOLO 模型究竟適不適合拿來應用於建築圖紙的分類，本篇再以分類鋼構圖(ST)、結構圖(CV)、建築圖(AR)這三種類型的圖紙作為實驗。

實驗結果觀察

在實務流程中，我們會直覺式的透過圖面的視覺特徵(外觀)，很容易的區分出不同圖紙的類別，並且作圖紙管理與工作分工的依據(例如：這張內容畫的是柱配筋圖，因而判斷它是結構圖；這張畫的是建築物外觀，因而判斷它是建築圖….等)。但殊不知這一系列的流程判斷，其實做的比較像是功能性分類，而非視覺分類。

YOLO影像識別(物件偵測)模型能夠學習這圖面內容的視覺關聯，卻無法直接判斷其在實務流程中的角色定位。換句話說，YOLO 分類可以做的是「我看到哪些構件(物件)」，而不是直接能判斷「我覺得這張是什麼圖」。因此才會發現，即使模型訓練穩定，分類結果仍難以具備一致的語意意義。

當分類依據來自流程語意而非視覺特徵時，要求影像模型提供穩定分類結果，本身即存在先天限制。就像起初以平面／立面／詳圖的定義去作分類標註，其實是按著圖面內容的「畫法」、「視覺特徵」去區分：

看出差別了嗎？YOLO 分類模型所做的是：「這張圖長得像不像某一類平均圖」；但 AR / CV / ST 問的是：「這張圖現在在這個案子裡要幹嘛」，也就是說物件偵測和功能用途的分類，本質上就是兩個完全不同的問題。

本次實驗顯示，YOLO 影像分類在建築圖面中仍具可行性，但當類別的定義不是純視覺可區分時，模型仍可學到「趨勢」，影像與物件特徵可以支撐作為分類的依據；但當用途取決於專案階段與溝通情境時，僅依賴影像與物件偵測，將無法穩定對應圖紙的實際功能，即模型精度自然會受限。