突破視覺訓練的畫質瓶頸:使用 Gemini 與 Cursor 在本機生成無損 Gabor Patch 影片

更新 發佈閱讀 7 分鐘

在視覺神經可塑性的訓練中(如弱視的雙眼分視去抑制訓練),大腦初級視覺皮層(V1)對刺激源的精準度要求極高。要讓神經元接收到完美的空間頻率與對比度梯度,唯一的途徑是在本機端透過程式碼直接進行矩陣渲染。本文將拆解如何利用 AI 語言模型(Gemini)結合程式碼編輯器(Cursor)與命令列工具(FFmpeg),建立一套極致精準的「無損視覺訓練影片生成工作流」。

一、為什麼大腦需要 Gabor Patch?

初級視覺皮層(V1)中的神經元並非對所有視覺訊號都產生同等反應。這些神經元的「感受野(Receptive Field)」對特定的**空間頻率(Spatial Frequency)與方向(Orientation)**具有高度選擇性。

Gabor Patch 是一個數學函數圖形(正弦波乘上高斯包絡線),它的光影漸層與邊緣特徵,完美契合了 V1 神經元的激活條件。透過精準控制 Gabor Patch 的對比度與頻率,並使其產生動態相位偏移,能高強度且持續地刺激特定神經迴路。根據赫布理論(Hebbian Theory),反覆的同步激活將強化突觸連結,進而提升大腦處理視覺邊緣與低對比度訊號的效率。

二、串流媒體的致命傷:壓縮演算法如何抹殺神經可塑性

如果 Gabor Patch 是一把精準的手術刀,那 YouTube 等串流平台的影片壓縮技術就是將其鈍化的砂紙。

無論影片標示為 1080P 還是 4K,只要上傳至串流平台,伺服器必定會進行破壞性壓縮(如 VP9 或 AV1 編碼),以降低頻寬成本。在低位元速率下,會產生以下破壞:

1. 高頻細節抹除: 演算法會優先丟棄高頻空間資訊,導致 Gabor 的銳利邊緣糊化。

2. 區塊效應(Macroblocking): 畫面產生馬賽克方塊與色階斷層,大腦接收到的不再是純粹的數學圖形,而是充滿數位雜訊的錯誤訊號。

視覺訓練的底線在於像素級的絕對精準。充滿雜訊與失真的刺激,不僅無法建立有效的神經連結,甚至可能引發視覺疲勞與反效果。

三、利用 Gemini 生成 Python 渲染腳本

不需要從頭學習 Python。只需向 Gemini 下達具備明確物理參數的指令,由 AI 生成利用 numpy(矩陣運算)與 cv2(影像輸出)的程式碼。

高效指令範例:

「請寫一段 Python 程式碼,生成一段 60 秒的 Gabor Patch 影片。

參數要求:

1.解析度 4K (3840x2160),幀率 60 FPS。

2.背景為絕對中性灰(RGB 128, 128, 128)。

3.畫面中央生成一個高斯包絡線半徑為 800 像素的 Gabor Patch。

4.條紋傾斜角度為 45 度(pi/4),且相位隨時間平滑漂移。

5.顯示終端機渲染進度條(使用 tqdm)。」

Gemini 會產出一份完整的 .py 腳本,這是建構高頻視覺刺激的數位藍圖。

四、在 Cursor 中執行矩陣運算

1.環境建置: 下載並安裝 Cursor。若電腦未曾安裝 Python,請至官網下載並在安裝時務必勾選「Add python.exe to PATH」,隨後重啟 Cursor。

2.載入腳本: 在 Cursor 中建立一個新檔案(如 gabor.py),將 Gemini 生成的程式碼貼上並存檔。

3.安裝依賴套件: 呼叫 Cursor 內建的終端機(Terminal),輸入以下指令安裝數學與影像處理函式庫:

bash

python -m pip install numpy opencv-python tqdm

4.啟動渲染: 執行腳本開始算圖。4K/60FPS 的矩陣運算需消耗硬體資源,請等待終端機的進度條跑至 100%。

bash

python gabor.py

五、跨越硬體解碼的最後一哩路 (FFmpeg 精準轉碼)

由 Python OpenCV 直接輸出的檔案(通常為 mp4v 編碼與原生色彩空間),極大概率會被 Meta Quest 3 或 AmblyoBye 等應用的底層硬體解碼器拒絕,導致無法播放或黑屏。

VR 設備嚴格要求 H.264 (AVC) 編碼 以及 YUV420p 色彩取樣格式。必須對產出的原始檔進行一次無損封裝。這裡捨棄圖形化介面軟體,直接採用最精準的 FFmpeg 命令列工具。

執行指令:

在終端機中輸入以下指令(請確保已安裝 FFmpeg 並加入環境變數):

bash

ffmpeg -i 原始影片檔名.mp4 -c:v libx264 -pix_fmt yuv420p -preset slow -crf 12 最終輸出檔名.mp4

參數原理解析:

• -c:v libx264:強制使用相容性最高的 H.264 編碼器。

• -pix_fmt yuv420p:核心關鍵。強迫轉換色彩空間,迎合行動晶片(如 Snapdragon XR2)的硬體解碼規範,解決黑屏問題。

• -crf 12:恆定品質參數(Constant Rate Factor)。設定為 12 能確保 Gabor Patch 的高頻邊緣細節與平滑的灰階過渡達到「視覺無損」的實驗室級別。

關於低位元速率的科學迷思:

轉碼後,檔案的總位元速率(Bitrate)可能會異常低(如 2~5 Mbps)。這並非畫質受損,而是因為 Gabor 函數生成的畫面具備極高的「空間冗餘(大面積純灰背景)」與「時間冗餘(規律的數學移動)」,且無任何相機底噪。在 CRF 12 的演算法下,編碼器能以極低的數據量完美重建影像。只要肉眼在 VR 中確認條紋銳利且無色階斷層,即具備 100% 的神經訓練效度。

結語

視覺訓練不應妥協於消費級串流媒體的壓縮失真。透過 Gemini 建立數學模型,交由 Cursor 進行本機編譯,最後輔以 FFmpeg 進行底層色彩空間與編碼的精準重構,我們能將原本僅限於專業神經科學實驗室的「高頻視覺刺激源」,在個人電腦上完美重現。這不僅是軟體工具的整合,更是以精準科學手段奪回視覺神經主導權的具體實踐。


自製Gabor Patch影片,訓練到24種不同角度,無損影片連結,歡迎下載使用

https://drive.google.com/drive/folders/12ngBJrFEulbCfQOo-LWdPB3Idz9zfiNP

可以直接存到Amblyobye觀看,有效訓練大腦皮層V1。

在使用 CRF(恆定品質)模式轉碼時,位元速率(Bitrate)的大幅下降,但依然完美保留了斑塊內部高頻黑白條紋的像素級銳利度。

留言
avatar-img
Joey Nan的筆記
6會員
233內容數
看見清晰的未來|一個成人弱視者的自我修復與大腦科學筆記 我是 Joey,一個在生活中不斷嘗試的實驗者。 這個筆記的起點,源於我對**「恢復視力」的一份初心。我嘗試透過 VR 裝置與科學訓練法,重新與我的大腦和雙眼對話。這不僅是一份復健紀錄,更是一次我對神經可塑性**的親身探索。
Joey Nan的筆記的其他內容
2026/03/30
當雙眼裸視勉強觸及 0.9 的視標,且伴隨後腦明顯的緊緻與微酸感時,這並非單純的眼部肌肉疲勞,而是大腦初級視覺皮層(V1)正經歷高強度突觸重塑的直接物理證據。在經歷長期的雙眼視差訓練後,這個現象標誌著神經迴路的重建已跨越硬體連通的關鍵門檻。 本文將結合神經影像學與知覺學習(Perceptual L
2026/03/30
當雙眼裸視勉強觸及 0.9 的視標,且伴隨後腦明顯的緊緻與微酸感時,這並非單純的眼部肌肉疲勞,而是大腦初級視覺皮層(V1)正經歷高強度突觸重塑的直接物理證據。在經歷長期的雙眼視差訓練後,這個現象標誌著神經迴路的重建已跨越硬體連通的關鍵門檻。 本文將結合神經影像學與知覺學習(Perceptual L
2026/03/30
在成人弱視的視覺重建過程中,當訓練進階至強迫雙眼 50%:50% 權重分配時,大腦初級視覺皮層(V1)需要的是絕對純淨、毫無壓縮雜訊的「高頻邊緣訊號」。這意味著必須輸入 20Mbps 以上的高位元率 4K 影片。 然而,實戰中立刻會遭遇技術瓶頸:從 YouTube 下載的高畫質 4K 檔案通常是
2026/03/30
在成人弱視的視覺重建過程中,當訓練進階至強迫雙眼 50%:50% 權重分配時,大腦初級視覺皮層(V1)需要的是絕對純淨、毫無壓縮雜訊的「高頻邊緣訊號」。這意味著必須輸入 20Mbps 以上的高位元率 4K 影片。 然而,實戰中立刻會遭遇技術瓶頸:從 YouTube 下載的高畫質 4K 檔案通常是
2026/03/29
在成人弱視的知覺學習(Perceptual Learning)與 VR 視覺訓練中,決定大腦神經重塑效率的絕對物理指標:總位元速率(Total Bitrate,單位 Mbps)。解析度決定的是畫面的「容器大小」,而位元速率決定的才是每一秒鐘填入容器的「有效資訊密度」。 本文將從神經視覺科學與影像編
2026/03/29
在成人弱視的知覺學習(Perceptual Learning)與 VR 視覺訓練中,決定大腦神經重塑效率的絕對物理指標:總位元速率(Total Bitrate,單位 Mbps)。解析度決定的是畫面的「容器大小」,而位元速率決定的才是每一秒鐘填入容器的「有效資訊密度」。 本文將從神經視覺科學與影像編
看更多