市面上已有許多AI工具,但對企業而言,若將內部資料直接公開餵給這些服務商,等於對全世界公諸於世自己的商業機密與Know-How,這些資料也將變成訓練資料集的一部分。此外,許多專業術語,恐有會錯意導致輸出結果偏差的可能。
因此往往涉及企業內部的資料,會與外界隔絕起來,獨立做訓練,在輔以市面現存的AI應用加以結合,除了達到AI應用的目的,還能避免資料外流。為了達到上述方式,企業主要有兩種方法,一種是自建實體伺服器的本地私有雲模式,另一種是與AI雲端服務商洽談企業客製化方案,確保資料僅供自家公司存取使用,不會成為公有訓練資料集的一部分。(不論哪種方式各有利弊,但非本篇重點內容,容筆者不再贅述)
不論哪種方式,企業在AI應用場景上,常見的應用可以分成以下幾種類型:
文字AI應用
最基本的AI模型,最終應用場景主要為:客服機器人、知識管理、文件轉譯、書面教材、文件版本管理等等,與書面文字為主要的應用場景相關。
這邊所說的文字,大多是混合圖文 PDF(含報告、說明書、表格)基礎,屬於一般企業內部文件類型。此外還包括爛大街的辦公室軟體MS Office系列,常見的又以Word、Excel、PowerPoint、Outlook、Teams等等。
通常與字串相關的內容,涉及一般純文字說明的條列、報告、章節,以及表格 、內嵌圖片(年報、財務表、規格書等)。如果有些資料僅有書面文件,則需要掃描輸入後,將掃描檔轉換成文字,至於能轉換文多少比例,依OCR的畫質、字體、排版、清晰度等因素而異。
圖像AI應用
這邊說的圖像,不是指工程用的CAD圖檔,或是醫學用的病理圖像,而是一般常見的BMP、JPG、PNG、WEBP等,圖像來源可能來自專業相機、手機、截圖、網路、繪圖等等。
圖像AI應用眾多,從判別圖像物件並標記、風格轉換、AI生成、去背、後製、瑕疵檢驗、金相分析、畫質修復、畫質調整等應用。
現在最常應用的地方,2B就是商案圖像素材的生成,2C就是社群行銷素材的生成,這些沒版權疑慮的AI生成圖像,大幅衝擊整個產業鏈生態。
印象很深刻,朋友創業做商攝,因為AI導致業績一落千丈;
親戚原先專職影像後製的生意掉了許多,如今要去外頭打工兼職求生。
音訊/語音AI應用
目前的語音模型常用於口語辨識、音譯、AI語音生成、語音辨識轉文字等AI應用。其中,涉及語音轉文字,則又會將模型轉到字串算力需求的部分。
常見企業應用於會議紀錄上,錄製內容並傳換成文字會議紀錄。
另外還有取代真人錄製語音內容,透過真人音檔訓練AI語音與口氣,後續就能照著逐字稿或腳本朗讀內容。有些企業甚至會拿來訓練老闆語音,用來傳達政令、價值觀、致詞等用途,表示老闆重視該議題、彷彿人在現場的臨場感。
影像AI應用
自駕車、醫學影像、影像生成、風格轉換、照片轉動畫、瑕疵檢驗、人流分析、影像辨識(車牌、人臉特徵、物品、生物)等AI應用。
以終端通路的企業來說,透過監視器與AI導入人流分析,是幫線下門市導入數位化的敲門磚,就能跟線上通路一樣根據流量×觸及×轉換×客單價進行更進一步的分析與應用。
對於安全有較高需求的場域,像是機場、車站、車廂內部、工廠等地,可以透過訓練辨識危險物品來及時監控潛在犯罪行為,提早預防危險發生。
複雜格式AI應用
尖端科技、核能、科學、軍用、量子電腦等等,由於過於高深,筆者未有攝入。
不過少數能說出口的複雜應用,其中之一就是常見於製造業與營建業的CAD工程圖檔。CAD圖檔不是純文字、也不是單純圖片,而是結構化的技術資料格式。
通常會用到CAD圖檔,有些是希望AI能自動將360環繞影片、照片轉換成三視圖CAD圖檔,甚至自動轉換成立體圖面,哪些工程結構需要幾支螺絲等等,倘若有圖面規範,圖面自動照著規範製圖、標註與敘述。
CAD做為工程師溝通的介面,CAD的圖面內容很重要。單一張CAD所需要的算力多寡,根據CAD圖的解析度、物件數量、尺寸、圖層數量等資訊決定。打個比方,一張 300MB~2GB 的CAD圖檔轉成純圖片時,可能會是超大解析度圖檔(如 8000×8000 px)。
可以說,不論是AI應用程度,還是算力需求大小,源頭皆取決於CAD圖檔的複雜度。
之後根據AI應用,在預處理(DWG解析、元件過濾/分類、結構化轉換、圖像渲染等)、以及後續不同應用階段的AI模型選用,都會影響算力需求與實際輸出結果。
透過AI自動化大幅減少人力成本與時間外,人們扮演的角色也從原先的製圖工程師,轉換成檢驗紙上作業能否具體實施的老師傅。
總結:MultiModal 多模態應用
基本上很難有單一類別的AI應用類型,或多或少都會兩三種類型混合,這些不同類型的資料叫做「模態」。像是書面文件不僅有文字,圖片的部分就需要專門處理圖像的AI模型;想要把會議內容變成逐字稿,並摘要重點,就需要音訊+文字的AI模型做搭配。
即便是單一類別的AI應用,也需要各種不同的AI模型完成系統建置。像是商場想要導入人流分析,從影像預處理、特徵分析、物件偵測、密度估計、目標追蹤,各有不同的AI模型需要定義與訓練。倘若還要能根據影像作即時處理與分析,那麼要求持續運作的算力與AI運作模式又要另外檢討。
關於AI多模態的例子,最經典的莫過於ChatGPT的跌代,從簡單對話、一篇文章重點摘要、翻譯、研究報告、語音輸入、圖片生成、圖片風格轉換等等。未來不論OpenAI是自行開發與精進AI模型,還是從第三方導入,ChatGPT可能往會更多工、更精準、更面面俱到的方向前進。
以上內容就是筆者在工作崗位上接觸到的AI應用幾大類型,根據自己的認知做些粗淺介紹,若有敘述不周或內容錯誤,還請各路高人補充與指正。
















