突破視覺訓練的畫質瓶頸：使用 Gemini 與 Cursor 在本機生成無損 Gabor Patch 影片

在視覺神經可塑性的訓練中（如弱視的雙眼分視去抑制訓練），大腦初級視覺皮層（V1）對刺激源的精準度要求極高。要讓神經元接收到完美的空間頻率與對比度梯度，唯一的途徑是在本機端透過程式碼直接進行矩陣渲染。本文將拆解如何利用 AI 語言模型（Gemini）結合程式碼編輯器（Cursor）與命令列工具（FFmpeg），建立一套極致精準的「無損視覺訓練影片生成工作流」。

一、為什麼大腦需要 Gabor Patch？

初級視覺皮層（V1）中的神經元並非對所有視覺訊號都產生同等反應。這些神經元的「感受野（Receptive Field）」對特定的**空間頻率（Spatial Frequency）與方向（Orientation）**具有高度選擇性。

Gabor Patch 是一個數學函數圖形（正弦波乘上高斯包絡線），它的光影漸層與邊緣特徵，完美契合了 V1 神經元的激活條件。透過精準控制 Gabor Patch 的對比度與頻率，並使其產生動態相位偏移，能高強度且持續地刺激特定神經迴路。根據赫布理論（Hebbian Theory），反覆的同步激活將強化突觸連結，進而提升大腦處理視覺邊緣與低對比度訊號的效率。

二、串流媒體的致命傷：壓縮演算法如何抹殺神經可塑性

如果 Gabor Patch 是一把精準的手術刀，那 YouTube 等串流平台的影片壓縮技術就是將其鈍化的砂紙。

無論影片標示為 1080P 還是 4K，只要上傳至串流平台，伺服器必定會進行破壞性壓縮（如 VP9 或 AV1 編碼），以降低頻寬成本。在低位元速率下，會產生以下破壞：

1. 高頻細節抹除：演算法會優先丟棄高頻空間資訊，導致 Gabor 的銳利邊緣糊化。

2. 區塊效應（Macroblocking）：畫面產生馬賽克方塊與色階斷層，大腦接收到的不再是純粹的數學圖形，而是充滿數位雜訊的錯誤訊號。

視覺訓練的底線在於像素級的絕對精準。充滿雜訊與失真的刺激，不僅無法建立有效的神經連結，甚至可能引發視覺疲勞與反效果。

三、利用 Gemini 生成 Python 渲染腳本

不需要從頭學習 Python。只需向 Gemini 下達具備明確物理參數的指令，由 AI 生成利用 numpy（矩陣運算）與 cv2（影像輸出）的程式碼。

高效指令範例：

「請寫一段 Python 程式碼，生成一段 60 秒的 Gabor Patch 影片。

參數要求：

1.解析度 4K (3840x2160)，幀率 60 FPS。

2.背景為絕對中性灰（RGB 128, 128, 128）。

3.畫面中央生成一個高斯包絡線半徑為 800 像素的 Gabor Patch。

4.條紋傾斜角度為 45 度（pi/4），且相位隨時間平滑漂移。

5.顯示終端機渲染進度條（使用 tqdm）。」

Gemini 會產出一份完整的 .py 腳本，這是建構高頻視覺刺激的數位藍圖。

四、在 Cursor 中執行矩陣運算

1.環境建置：下載並安裝 Cursor。若電腦未曾安裝 Python，請至官網下載並在安裝時務必勾選「Add python.exe to PATH」，隨後重啟 Cursor。

2.載入腳本：在 Cursor 中建立一個新檔案（如 gabor.py），將 Gemini 生成的程式碼貼上並存檔。

3.安裝依賴套件：呼叫 Cursor 內建的終端機（Terminal），輸入以下指令安裝數學與影像處理函式庫：

bash

python -m pip install numpy opencv-python tqdm

4.啟動渲染：執行腳本開始算圖。4K/60FPS 的矩陣運算需消耗硬體資源，請等待終端機的進度條跑至 100%。

bash

python gabor.py

五、跨越硬體解碼的最後一哩路 (FFmpeg 精準轉碼)

由 Python OpenCV 直接輸出的檔案（通常為 mp4v 編碼與原生色彩空間），極大概率會被 Meta Quest 3 或 AmblyoBye 等應用的底層硬體解碼器拒絕，導致無法播放或黑屏。

VR 設備嚴格要求 H.264 (AVC) 編碼以及 YUV420p 色彩取樣格式。必須對產出的原始檔進行一次無損封裝。這裡捨棄圖形化介面軟體，直接採用最精準的 FFmpeg 命令列工具。

執行指令：

在終端機中輸入以下指令（請確保已安裝 FFmpeg 並加入環境變數）：

bash

ffmpeg -i 原始影片檔名.mp4 -c:v libx264 -pix_fmt yuv420p -preset slow -crf 12 最終輸出檔名.mp4

參數原理解析：

• -c:v libx264：強制使用相容性最高的 H.264 編碼器。

• -pix_fmt yuv420p：核心關鍵。強迫轉換色彩空間，迎合行動晶片（如 Snapdragon XR2）的硬體解碼規範，解決黑屏問題。

• -crf 12：恆定品質參數（Constant Rate Factor）。設定為 12 能確保 Gabor Patch 的高頻邊緣細節與平滑的灰階過渡達到「視覺無損」的實驗室級別。

關於低位元速率的科學迷思：

轉碼後，檔案的總位元速率（Bitrate）可能會異常低（如 2~5 Mbps）。這並非畫質受損，而是因為 Gabor 函數生成的畫面具備極高的「空間冗餘（大面積純灰背景）」與「時間冗餘（規律的數學移動）」，且無任何相機底噪。在 CRF 12 的演算法下，編碼器能以極低的數據量完美重建影像。只要肉眼在 VR 中確認條紋銳利且無色階斷層，即具備 100% 的神經訓練效度。

結語

視覺訓練不應妥協於消費級串流媒體的壓縮失真。透過 Gemini 建立數學模型，交由 Cursor 進行本機編譯，最後輔以 FFmpeg 進行底層色彩空間與編碼的精準重構，我們能將原本僅限於專業神經科學實驗室的「高頻視覺刺激源」，在個人電腦上完美重現。這不僅是軟體工具的整合，更是以精準科學手段奪回視覺神經主導權的具體實踐。

自製Gabor Patch影片，訓練到24種不同角度，無損影片連結，歡迎下載使用

https://drive.google.com/drive/folders/12ngBJrFEulbCfQOo-LWdPB3Idz9zfiNP

可以直接存到Amblyobye觀看，有效訓練大腦皮層V1。

在使用 CRF（恆定品質）模式轉碼時，位元速率（Bitrate）的大幅下降，但依然完美保留了斑塊內部高頻黑白條紋的像素級銳利度。