滴咕雞
84
免費公開
房間資訊
囉嗦是關心你的最高表現
Top 5
1
如何使用多張顯卡訓練LLM?
2
「ELIZA 效應」—人類會過度相信 AI
3
如何訓練LLM?
4
如果中國大陸打造類似阿拉丁的系統,會怎麼設計?
5
接近 Devin 的完整 AI 系統設計(一)
1
如何使用多張顯卡訓練LLM?
2
「ELIZA 效應」—人類會過度相信 AI
3
如何訓練LLM?
4
如果中國大陸打造類似阿拉丁的系統,會怎麼設計?
5
接近 Devin 的完整 AI 系統設計(一)
全部
全部
全部類型
免費與付費
最新發佈
最新發佈
JH Young
2026/03/10
「雙 RTX 5090 Devin-like 系統」的可落地架構
一個 真正可以運行、可擴展到 10k+ 行的 GitHub 專案設計 + 核心實作骨架。 只要依照這個架構補齊 agents、prompts、tools,就能變成 完整的 10000+ 行系統。 Devin-X (Dual-5090 Autonomous AI Engineer) 能力目標:
#
CEO
#
DeepSeek
#
MOD
1
JH Young
2026/03/10
「雙 RTX 5090 Devin-like 系統」的可落地架構
一個 真正可以運行、可擴展到 10k+ 行的 GitHub 專案設計 + 核心實作骨架。 只要依照這個架構補齊 agents、prompts、tools,就能變成 完整的 10000+ 行系統。 Devin-X (Dual-5090 Autonomous AI Engineer) 能力目標:
#
CEO
#
DeepSeek
#
MOD
1
JH Young
2026/03/10
設計「研究級 AI 系統架構設計」
如果真的做成 50+ agents + 自進化工具 + Autonomous startup builder,那其實已經是: Devin / Cognition Labs OpenDevin AutoGPT Platform Devika MetaGPT 這一類 AI software
#
設計
#
DeepSeek
#
CEO
2
JH Young
2026/03/10
設計「研究級 AI 系統架構設計」
如果真的做成 50+ agents + 自進化工具 + Autonomous startup builder,那其實已經是: Devin / Cognition Labs OpenDevin AutoGPT Platform Devika MetaGPT 這一類 AI software
#
設計
#
DeepSeek
#
CEO
2
JH Young
2026/03/09
升級成可跑的DEVIN-like系統設計
把這個架構升級成完整可運行的「Devin-級 Autonomous AI Engineer 系統設計」。 這是前面 5000 行專案藍圖基礎上升級的完整版本,包含: LangGraph workflow(20+ nodes) Autonomous coding loop
#
DeepSeek
#
升級
#
設計
JH Young
2026/03/09
升級成可跑的DEVIN-like系統設計
把這個架構升級成完整可運行的「Devin-級 Autonomous AI Engineer 系統設計」。 這是前面 5000 行專案藍圖基礎上升級的完整版本,包含: LangGraph workflow(20+ nodes) Autonomous coding loop
#
DeepSeek
#
升級
#
設計
JH Young
2026/03/09
設計 「可實作的 Devin 開源專案藍圖」
「真正可實作的 5000 行 Devin 開源專案藍圖」,包含: 完整 repo 結構 每個 agent 的實際 prompt LangGraph workflow Docker sandbox Git 自動 commit agent 自動 SaaS 建立
#
專案
#
CEO
#
DeepSeek
JH Young
2026/03/09
設計 「可實作的 Devin 開源專案藍圖」
「真正可實作的 5000 行 Devin 開源專案藍圖」,包含: 完整 repo 結構 每個 agent 的實際 prompt LangGraph workflow Docker sandbox Git 自動 commit agent 自動 SaaS 建立
#
專案
#
CEO
#
DeepSeek
JH Young
2026/03/09
接近 Devin 的完整 AI 系統設計(二)
2026 接近 Devin 架構,包含: Hierarchical Planning Agent Agent Society (10+ agents) Autonomous Software Company Simulation Self-Improving AI
#
設計
#
ChatGPT
#
DeepSeek
JH Young
2026/03/09
接近 Devin 的完整 AI 系統設計(二)
2026 接近 Devin 架構,包含: Hierarchical Planning Agent Agent Society (10+ agents) Autonomous Software Company Simulation Self-Improving AI
#
設計
#
ChatGPT
#
DeepSeek
JH Young
2026/03/08
開源、接近 Devin 的 AI 系統架構設計
設計接近 Devin 的 AI 系統架構。 這是一個 工程級 Autonomous Software Engineer Agent,能力接近: Devin OpenDevin Devika AutoGPT 整體會包含要求的全部模組。
#
DeepSeek
#
程式
#
數據
JH Young
2026/03/08
開源、接近 Devin 的 AI 系統架構設計
設計接近 Devin 的 AI 系統架構。 這是一個 工程級 Autonomous Software Engineer Agent,能力接近: Devin OpenDevin Devika AutoGPT 整體會包含要求的全部模組。
#
DeepSeek
#
程式
#
數據
JH Young
2026/03/08
完整工程架構設計整體能力接近:AutoGPT、OpenDevin、Devika
這是接近 3000 行級別專案的完整工程架構設計(但在一個回答內無法放完整 3000 行程式碼)。 設計提供: 🧠 LangGraph Agent 架構 🧰 Auto Tool Learning 🔁 Self Reflection 🧠 Graph + Vector Memory
#
專案
#
程式
#
工程
JH Young
2026/03/08
完整工程架構設計整體能力接近:AutoGPT、OpenDevin、Devika
這是接近 3000 行級別專案的完整工程架構設計(但在一個回答內無法放完整 3000 行程式碼)。 設計提供: 🧠 LangGraph Agent 架構 🧰 Auto Tool Learning 🔁 Self Reflection 🧠 Graph + Vector Memory
#
專案
#
程式
#
工程
JH Young
2026/03/08
工程級進階 AI Agent 系統藍圖及最小可運行範例
一個工程級的進階 AI Agent 系統藍圖 + 最小可運行範例。 整體會做到要求的: ✅ Tool Calling 微調資料生成 ✅LLaMA / Qwen LoRA 微調腳本 ✅ RAG (向量檢索) ✅ Auto Tool Selection ✅ Graph Memory
#
工程
#
生成
#
ChatGPT
JH Young
2026/03/08
工程級進階 AI Agent 系統藍圖及最小可運行範例
一個工程級的進階 AI Agent 系統藍圖 + 最小可運行範例。 整體會做到要求的: ✅ Tool Calling 微調資料生成 ✅LLaMA / Qwen LoRA 微調腳本 ✅ RAG (向量檢索) ✅ Auto Tool Selection ✅ Graph Memory
#
工程
#
生成
#
ChatGPT
JH Young
2026/03/08
建立一個 Tool-Calling LLM 助手
下面是一個工程級但仍然精簡、可在 RTX 4090 本地跑通的完整範例。 目標:建立一個 Tool-Calling LLM 助手。 包含四部分: 1️⃣ 100 條 Tool-Calling 訓練資料生成器 2️⃣ LLaMA / Qwen LoRA 微調腳本 3️⃣ 4090 本地訓練流
#
ChatGPT
#
生成
#
核心
JH Young
2026/03/08
建立一個 Tool-Calling LLM 助手
下面是一個工程級但仍然精簡、可在 RTX 4090 本地跑通的完整範例。 目標:建立一個 Tool-Calling LLM 助手。 包含四部分: 1️⃣ 100 條 Tool-Calling 訓練資料生成器 2️⃣ LLaMA / Qwen LoRA 微調腳本 3️⃣ 4090 本地訓練流
#
ChatGPT
#
生成
#
核心
JH Young
2026/03/08
完整、標準、可實際用 RTX-4090 訓練的 Python 範例
一、程式碼的問題 原本的: </>Python training_example = { "instruction": "幫我查一下預算表,並在明天下午三點排個審核會。", "output": '{"tool": "query_database",
#
專業
#
OpenAI
#
查詢
JH Young
2026/03/08
完整、標準、可實際用 RTX-4090 訓練的 Python 範例
一、程式碼的問題 原本的: </>Python training_example = { "instruction": "幫我查一下預算表,並在明天下午三點排個審核會。", "output": '{"tool": "query_database",
#
專業
#
OpenAI
#
查詢
JH Young
2026/03/08
LLM 內部的「世界模型」(world model)
模型在腦中建立了一個簡化的「世界結構」,有些研究者發現 LLM 內部可能形成「世界模型」(world model),「世界模型」是近年 AI 研究中非常熱門的概念。許多研究者認為,一些大型語言模型在內部可能逐漸形成了某種簡化的世界結構表示。
#
機器學習
#
資訊
#
OpenAI
1
JH Young
2026/03/08
LLM 內部的「世界模型」(world model)
模型在腦中建立了一個簡化的「世界結構」,有些研究者發現 LLM 內部可能形成「世界模型」(world model),「世界模型」是近年 AI 研究中非常熱門的概念。許多研究者認為,一些大型語言模型在內部可能逐漸形成了某種簡化的世界結構表示。
#
機器學習
#
資訊
#
OpenAI
1
JH Young
2026/03/08
LLM 內部出現的「語言概念神經元」
最近 AI 可解釋性研究的一個重大發現 - 語言概念神經元,在大型語言模型(LLM)裡,某些神經元似乎對特定「概念」特別敏感。研究者常把這類現象稱為 “concept neurons(概念神經元)” 或 “feature neurons(特徵神經元)”。
#
語言
#
人類
#
輸入
2
JH Young
2026/03/08
LLM 內部出現的「語言概念神經元」
最近 AI 可解釋性研究的一個重大發現 - 語言概念神經元,在大型語言模型(LLM)裡,某些神經元似乎對特定「概念」特別敏感。研究者常把這類現象稱為 “concept neurons(概念神經元)” 或 “feature neurons(特徵神經元)”。
#
語言
#
人類
#
輸入
2
JH Young
2026/03/08
LLM 是「記憶」或「推理」?
大型語言模型(LLM)到底是在「理解」,還是在「記憶」訓練資料? 很多研究(例如來自 Stanford University、OpenAI、Google DeepMind)發現: LLM 同時包含「記憶」與「推理」,而且比例會隨資料與模型大小改變。 下面用比較直觀的方式說明。
#
模型
#
語言
#
GPU
2
JH Young
2026/03/08
LLM 是「記憶」或「推理」?
大型語言模型(LLM)到底是在「理解」,還是在「記憶」訓練資料? 很多研究(例如來自 Stanford University、OpenAI、Google DeepMind)發現: LLM 同時包含「記憶」與「推理」,而且比例會隨資料與模型大小改變。 下面用比較直觀的方式說明。
#
模型
#
語言
#
GPU
2
JH Young
2026/03/08
MoE模型 - 參數達1 兆,推理成本低
這是很多最新大模型的核心技術,用直觀 + 技術結構解釋目前很多大型模型使用的架構:Mixture of Experts(MoE)。這種架構讓模型可以做到超大參數量,但推理成本卻沒有等比例增加。 一、什麼是 Mixture of Experts(MoE)
#
成本
#
啟動
#
神經
JH Young
2026/03/08
MoE模型 - 參數達1 兆,推理成本低
這是很多最新大模型的核心技術,用直觀 + 技術結構解釋目前很多大型模型使用的架構:Mixture of Experts(MoE)。這種架構讓模型可以做到超大參數量,但推理成本卻沒有等比例增加。 一、什麼是 Mixture of Experts(MoE)
#
成本
#
啟動
#
神經
JH Young
2026/03/07
「RAG + 微調」混合架構 - AI 公司最常用的 dataset 技術
現在 AI 公司最常用的 dataset 技術: 「RAG + 微調」混合架構 它能讓小模型能力 提升 5~20 倍。 目前 AI 系統非常主流的一種架構:RAG + 微調(Fine-tuning)混合架構。很多公司都使用這種方法來打造專業 AI 助手,因為它能讓模型既有知識又能查最新資料。
#
專業
#
搜尋
#
文件
1
JH Young
2026/03/07
「RAG + 微調」混合架構 - AI 公司最常用的 dataset 技術
現在 AI 公司最常用的 dataset 技術: 「RAG + 微調」混合架構 它能讓小模型能力 提升 5~20 倍。 目前 AI 系統非常主流的一種架構:RAG + 微調(Fine-tuning)混合架構。很多公司都使用這種方法來打造專業 AI 助手,因為它能讓模型既有知識又能查最新資料。
#
專業
#
搜尋
#
文件
1
JH Young
2026/03/06
如何用 AI 自動生成 10 萬筆訓練資料(Self-Instruct Dataset)
一步一步示範 Self-Instruct(自動生成訓練資料)的方法。 這是很多模型(如 OpenAI、Stanford University 研究團隊)提出並實際使用的技巧,可以用一個強模型自動生成大量資料,然後用來微調另一個模型。
#
DeepSeek
#
生成
#
數據
1
JH Young
2026/03/06
如何用 AI 自動生成 10 萬筆訓練資料(Self-Instruct Dataset)
一步一步示範 Self-Instruct(自動生成訓練資料)的方法。 這是很多模型(如 OpenAI、Stanford University 研究團隊)提出並實際使用的技巧,可以用一個強模型自動生成大量資料,然後用來微調另一個模型。
#
DeepSeek
#
生成
#
數據
1
JH Young
2026/03/06
用一張 RTX 4090 就能跑的完整 LLM 微調專案架構
這是很多人自己做「私人 AI 助手 / 領域模型」的典型做法。整體分成:模型選擇 → 資料 → 訓練 → 推論部署。 一、硬體條件(RTX 4090) RTX 4090 VRAM:24GB FP16 算力:約 82 TFLOPS 適合:LoRA / QLoRA 微調 能訓練模型大小:
#
專案
#
數據
#
GPU
JH Young
2026/03/06
用一張 RTX 4090 就能跑的完整 LLM 微調專案架構
這是很多人自己做「私人 AI 助手 / 領域模型」的典型做法。整體分成:模型選擇 → 資料 → 訓練 → 推論部署。 一、硬體條件(RTX 4090) RTX 4090 VRAM:24GB FP16 算力:約 82 TFLOPS 適合:LoRA / QLoRA 微調 能訓練模型大小:
#
專案
#
數據
#
GPU
JH Young
2026/03/06
示範 4090 訓練 LLM Tool-Calling 的 dataset 格式
示範一個 RTX 4090 用於訓練 LLM「工具調用(Tool Calling)」的資料格式。這種格式比原本的 Python 範例更接近 OpenAI / Llama / DeepSeek / function calling dataset 常見結構。
#
對話
#
審核
#
數據
JH Young
2026/03/06
示範 4090 訓練 LLM Tool-Calling 的 dataset 格式
示範一個 RTX 4090 用於訓練 LLM「工具調用(Tool Calling)」的資料格式。這種格式比原本的 Python 範例更接近 OpenAI / Llama / DeepSeek / function calling dataset 常見結構。
#
對話
#
審核
#
數據
JH Young
2026/03/06
Data Collator 函數呼叫範例討論
在之前「學會調用 Calendar API 或查詢數據庫」一文中,將 API 的定義定義在 System Prompt 中範例有如下討論。
#
專業
#
助理
#
程式
JH Young
2026/03/06
Data Collator 函數呼叫範例討論
在之前「學會調用 Calendar API 或查詢數據庫」一文中,將 API 的定義定義在 System Prompt 中範例有如下討論。
#
專業
#
助理
#
程式
JH Young
2026/03/06
寫一個 HTML 網頁介面,可以在瀏覽器中直接跟 5090 助理對話
這是一個簡單但功能強大的 HTML + Tailwind CSS 前端介面。它能讓 2x RTX 5090 助理擁有一個直觀的「對話框」,並特別設計了「思考過程」與「API 調用狀態」的顯示區域,讓您即時看到模型如何修正其 JSON 格式。 1. 建立前端檔案 index.html
#
網頁
#
助理
#
對話
JH Young
2026/03/06
寫一個 HTML 網頁介面,可以在瀏覽器中直接跟 5090 助理對話
這是一個簡單但功能強大的 HTML + Tailwind CSS 前端介面。它能讓 2x RTX 5090 助理擁有一個直觀的「對話框」,並特別設計了「思考過程」與「API 調用狀態」的顯示區域,讓您即時看到模型如何修正其 JSON 格式。 1. 建立前端檔案 index.html
#
網頁
#
助理
#
對話
加入
Top 5
1
如何使用多張顯卡訓練LLM?
2
「ELIZA 效應」—人類會過度相信 AI
3
如何訓練LLM?
4
如果中國大陸打造類似阿拉丁的系統,會怎麼設計?
5
接近 Devin 的完整 AI 系統設計(一)
1
如何使用多張顯卡訓練LLM?
2
「ELIZA 效應」—人類會過度相信 AI
3
如何訓練LLM?
4
如果中國大陸打造類似阿拉丁的系統,會怎麼設計?
5
接近 Devin 的完整 AI 系統設計(一)
全部
全部
全部類型
免費與付費
最新發佈
最新發佈
JH Young
2026/03/10
「雙 RTX 5090 Devin-like 系統」的可落地架構
一個 真正可以運行、可擴展到 10k+ 行的 GitHub 專案設計 + 核心實作骨架。 只要依照這個架構補齊 agents、prompts、tools,就能變成 完整的 10000+ 行系統。 Devin-X (Dual-5090 Autonomous AI Engineer) 能力目標:
#
CEO
#
DeepSeek
#
MOD
1
JH Young
2026/03/10
「雙 RTX 5090 Devin-like 系統」的可落地架構
一個 真正可以運行、可擴展到 10k+ 行的 GitHub 專案設計 + 核心實作骨架。 只要依照這個架構補齊 agents、prompts、tools,就能變成 完整的 10000+ 行系統。 Devin-X (Dual-5090 Autonomous AI Engineer) 能力目標:
#
CEO
#
DeepSeek
#
MOD
1
JH Young
2026/03/10
設計「研究級 AI 系統架構設計」
如果真的做成 50+ agents + 自進化工具 + Autonomous startup builder,那其實已經是: Devin / Cognition Labs OpenDevin AutoGPT Platform Devika MetaGPT 這一類 AI software
#
設計
#
DeepSeek
#
CEO
2
JH Young
2026/03/10
設計「研究級 AI 系統架構設計」
如果真的做成 50+ agents + 自進化工具 + Autonomous startup builder,那其實已經是: Devin / Cognition Labs OpenDevin AutoGPT Platform Devika MetaGPT 這一類 AI software
#
設計
#
DeepSeek
#
CEO
2
JH Young
2026/03/09
升級成可跑的DEVIN-like系統設計
把這個架構升級成完整可運行的「Devin-級 Autonomous AI Engineer 系統設計」。 這是前面 5000 行專案藍圖基礎上升級的完整版本,包含: LangGraph workflow(20+ nodes) Autonomous coding loop
#
DeepSeek
#
升級
#
設計
JH Young
2026/03/09
升級成可跑的DEVIN-like系統設計
把這個架構升級成完整可運行的「Devin-級 Autonomous AI Engineer 系統設計」。 這是前面 5000 行專案藍圖基礎上升級的完整版本,包含: LangGraph workflow(20+ nodes) Autonomous coding loop
#
DeepSeek
#
升級
#
設計
JH Young
2026/03/09
設計 「可實作的 Devin 開源專案藍圖」
「真正可實作的 5000 行 Devin 開源專案藍圖」,包含: 完整 repo 結構 每個 agent 的實際 prompt LangGraph workflow Docker sandbox Git 自動 commit agent 自動 SaaS 建立
#
專案
#
CEO
#
DeepSeek
JH Young
2026/03/09
設計 「可實作的 Devin 開源專案藍圖」
「真正可實作的 5000 行 Devin 開源專案藍圖」,包含: 完整 repo 結構 每個 agent 的實際 prompt LangGraph workflow Docker sandbox Git 自動 commit agent 自動 SaaS 建立
#
專案
#
CEO
#
DeepSeek
JH Young
2026/03/09
接近 Devin 的完整 AI 系統設計(二)
2026 接近 Devin 架構,包含: Hierarchical Planning Agent Agent Society (10+ agents) Autonomous Software Company Simulation Self-Improving AI
#
設計
#
ChatGPT
#
DeepSeek
JH Young
2026/03/09
接近 Devin 的完整 AI 系統設計(二)
2026 接近 Devin 架構,包含: Hierarchical Planning Agent Agent Society (10+ agents) Autonomous Software Company Simulation Self-Improving AI
#
設計
#
ChatGPT
#
DeepSeek
JH Young
2026/03/08
開源、接近 Devin 的 AI 系統架構設計
設計接近 Devin 的 AI 系統架構。 這是一個 工程級 Autonomous Software Engineer Agent,能力接近: Devin OpenDevin Devika AutoGPT 整體會包含要求的全部模組。
#
DeepSeek
#
程式
#
數據
JH Young
2026/03/08
開源、接近 Devin 的 AI 系統架構設計
設計接近 Devin 的 AI 系統架構。 這是一個 工程級 Autonomous Software Engineer Agent,能力接近: Devin OpenDevin Devika AutoGPT 整體會包含要求的全部模組。
#
DeepSeek
#
程式
#
數據
JH Young
2026/03/08
完整工程架構設計整體能力接近:AutoGPT、OpenDevin、Devika
這是接近 3000 行級別專案的完整工程架構設計(但在一個回答內無法放完整 3000 行程式碼)。 設計提供: 🧠 LangGraph Agent 架構 🧰 Auto Tool Learning 🔁 Self Reflection 🧠 Graph + Vector Memory
#
專案
#
程式
#
工程
JH Young
2026/03/08
完整工程架構設計整體能力接近:AutoGPT、OpenDevin、Devika
這是接近 3000 行級別專案的完整工程架構設計(但在一個回答內無法放完整 3000 行程式碼)。 設計提供: 🧠 LangGraph Agent 架構 🧰 Auto Tool Learning 🔁 Self Reflection 🧠 Graph + Vector Memory
#
專案
#
程式
#
工程
JH Young
2026/03/08
工程級進階 AI Agent 系統藍圖及最小可運行範例
一個工程級的進階 AI Agent 系統藍圖 + 最小可運行範例。 整體會做到要求的: ✅ Tool Calling 微調資料生成 ✅LLaMA / Qwen LoRA 微調腳本 ✅ RAG (向量檢索) ✅ Auto Tool Selection ✅ Graph Memory
#
工程
#
生成
#
ChatGPT
JH Young
2026/03/08
工程級進階 AI Agent 系統藍圖及最小可運行範例
一個工程級的進階 AI Agent 系統藍圖 + 最小可運行範例。 整體會做到要求的: ✅ Tool Calling 微調資料生成 ✅LLaMA / Qwen LoRA 微調腳本 ✅ RAG (向量檢索) ✅ Auto Tool Selection ✅ Graph Memory
#
工程
#
生成
#
ChatGPT
JH Young
2026/03/08
建立一個 Tool-Calling LLM 助手
下面是一個工程級但仍然精簡、可在 RTX 4090 本地跑通的完整範例。 目標:建立一個 Tool-Calling LLM 助手。 包含四部分: 1️⃣ 100 條 Tool-Calling 訓練資料生成器 2️⃣ LLaMA / Qwen LoRA 微調腳本 3️⃣ 4090 本地訓練流
#
ChatGPT
#
生成
#
核心
JH Young
2026/03/08
建立一個 Tool-Calling LLM 助手
下面是一個工程級但仍然精簡、可在 RTX 4090 本地跑通的完整範例。 目標:建立一個 Tool-Calling LLM 助手。 包含四部分: 1️⃣ 100 條 Tool-Calling 訓練資料生成器 2️⃣ LLaMA / Qwen LoRA 微調腳本 3️⃣ 4090 本地訓練流
#
ChatGPT
#
生成
#
核心
JH Young
2026/03/08
完整、標準、可實際用 RTX-4090 訓練的 Python 範例
一、程式碼的問題 原本的: </>Python training_example = { "instruction": "幫我查一下預算表,並在明天下午三點排個審核會。", "output": '{"tool": "query_database",
#
專業
#
OpenAI
#
查詢
JH Young
2026/03/08
完整、標準、可實際用 RTX-4090 訓練的 Python 範例
一、程式碼的問題 原本的: </>Python training_example = { "instruction": "幫我查一下預算表,並在明天下午三點排個審核會。", "output": '{"tool": "query_database",
#
專業
#
OpenAI
#
查詢
JH Young
2026/03/08
LLM 內部的「世界模型」(world model)
模型在腦中建立了一個簡化的「世界結構」,有些研究者發現 LLM 內部可能形成「世界模型」(world model),「世界模型」是近年 AI 研究中非常熱門的概念。許多研究者認為,一些大型語言模型在內部可能逐漸形成了某種簡化的世界結構表示。
#
機器學習
#
資訊
#
OpenAI
1
JH Young
2026/03/08
LLM 內部的「世界模型」(world model)
模型在腦中建立了一個簡化的「世界結構」,有些研究者發現 LLM 內部可能形成「世界模型」(world model),「世界模型」是近年 AI 研究中非常熱門的概念。許多研究者認為,一些大型語言模型在內部可能逐漸形成了某種簡化的世界結構表示。
#
機器學習
#
資訊
#
OpenAI
1
JH Young
2026/03/08
LLM 內部出現的「語言概念神經元」
最近 AI 可解釋性研究的一個重大發現 - 語言概念神經元,在大型語言模型(LLM)裡,某些神經元似乎對特定「概念」特別敏感。研究者常把這類現象稱為 “concept neurons(概念神經元)” 或 “feature neurons(特徵神經元)”。
#
語言
#
人類
#
輸入
2
JH Young
2026/03/08
LLM 內部出現的「語言概念神經元」
最近 AI 可解釋性研究的一個重大發現 - 語言概念神經元,在大型語言模型(LLM)裡,某些神經元似乎對特定「概念」特別敏感。研究者常把這類現象稱為 “concept neurons(概念神經元)” 或 “feature neurons(特徵神經元)”。
#
語言
#
人類
#
輸入
2
JH Young
2026/03/08
LLM 是「記憶」或「推理」?
大型語言模型(LLM)到底是在「理解」,還是在「記憶」訓練資料? 很多研究(例如來自 Stanford University、OpenAI、Google DeepMind)發現: LLM 同時包含「記憶」與「推理」,而且比例會隨資料與模型大小改變。 下面用比較直觀的方式說明。
#
模型
#
語言
#
GPU
2
JH Young
2026/03/08
LLM 是「記憶」或「推理」?
大型語言模型(LLM)到底是在「理解」,還是在「記憶」訓練資料? 很多研究(例如來自 Stanford University、OpenAI、Google DeepMind)發現: LLM 同時包含「記憶」與「推理」,而且比例會隨資料與模型大小改變。 下面用比較直觀的方式說明。
#
模型
#
語言
#
GPU
2
JH Young
2026/03/08
MoE模型 - 參數達1 兆,推理成本低
這是很多最新大模型的核心技術,用直觀 + 技術結構解釋目前很多大型模型使用的架構:Mixture of Experts(MoE)。這種架構讓模型可以做到超大參數量,但推理成本卻沒有等比例增加。 一、什麼是 Mixture of Experts(MoE)
#
成本
#
啟動
#
神經
JH Young
2026/03/08
MoE模型 - 參數達1 兆,推理成本低
這是很多最新大模型的核心技術,用直觀 + 技術結構解釋目前很多大型模型使用的架構:Mixture of Experts(MoE)。這種架構讓模型可以做到超大參數量,但推理成本卻沒有等比例增加。 一、什麼是 Mixture of Experts(MoE)
#
成本
#
啟動
#
神經
JH Young
2026/03/07
「RAG + 微調」混合架構 - AI 公司最常用的 dataset 技術
現在 AI 公司最常用的 dataset 技術: 「RAG + 微調」混合架構 它能讓小模型能力 提升 5~20 倍。 目前 AI 系統非常主流的一種架構:RAG + 微調(Fine-tuning)混合架構。很多公司都使用這種方法來打造專業 AI 助手,因為它能讓模型既有知識又能查最新資料。
#
專業
#
搜尋
#
文件
1
JH Young
2026/03/07
「RAG + 微調」混合架構 - AI 公司最常用的 dataset 技術
現在 AI 公司最常用的 dataset 技術: 「RAG + 微調」混合架構 它能讓小模型能力 提升 5~20 倍。 目前 AI 系統非常主流的一種架構:RAG + 微調(Fine-tuning)混合架構。很多公司都使用這種方法來打造專業 AI 助手,因為它能讓模型既有知識又能查最新資料。
#
專業
#
搜尋
#
文件
1
JH Young
2026/03/06
如何用 AI 自動生成 10 萬筆訓練資料(Self-Instruct Dataset)
一步一步示範 Self-Instruct(自動生成訓練資料)的方法。 這是很多模型(如 OpenAI、Stanford University 研究團隊)提出並實際使用的技巧,可以用一個強模型自動生成大量資料,然後用來微調另一個模型。
#
DeepSeek
#
生成
#
數據
1
JH Young
2026/03/06
如何用 AI 自動生成 10 萬筆訓練資料(Self-Instruct Dataset)
一步一步示範 Self-Instruct(自動生成訓練資料)的方法。 這是很多模型(如 OpenAI、Stanford University 研究團隊)提出並實際使用的技巧,可以用一個強模型自動生成大量資料,然後用來微調另一個模型。
#
DeepSeek
#
生成
#
數據
1
JH Young
2026/03/06
用一張 RTX 4090 就能跑的完整 LLM 微調專案架構
這是很多人自己做「私人 AI 助手 / 領域模型」的典型做法。整體分成:模型選擇 → 資料 → 訓練 → 推論部署。 一、硬體條件(RTX 4090) RTX 4090 VRAM:24GB FP16 算力:約 82 TFLOPS 適合:LoRA / QLoRA 微調 能訓練模型大小:
#
專案
#
數據
#
GPU
JH Young
2026/03/06
用一張 RTX 4090 就能跑的完整 LLM 微調專案架構
這是很多人自己做「私人 AI 助手 / 領域模型」的典型做法。整體分成:模型選擇 → 資料 → 訓練 → 推論部署。 一、硬體條件(RTX 4090) RTX 4090 VRAM:24GB FP16 算力:約 82 TFLOPS 適合:LoRA / QLoRA 微調 能訓練模型大小:
#
專案
#
數據
#
GPU
JH Young
2026/03/06
示範 4090 訓練 LLM Tool-Calling 的 dataset 格式
示範一個 RTX 4090 用於訓練 LLM「工具調用(Tool Calling)」的資料格式。這種格式比原本的 Python 範例更接近 OpenAI / Llama / DeepSeek / function calling dataset 常見結構。
#
對話
#
審核
#
數據
JH Young
2026/03/06
示範 4090 訓練 LLM Tool-Calling 的 dataset 格式
示範一個 RTX 4090 用於訓練 LLM「工具調用(Tool Calling)」的資料格式。這種格式比原本的 Python 範例更接近 OpenAI / Llama / DeepSeek / function calling dataset 常見結構。
#
對話
#
審核
#
數據
JH Young
2026/03/06
Data Collator 函數呼叫範例討論
在之前「學會調用 Calendar API 或查詢數據庫」一文中,將 API 的定義定義在 System Prompt 中範例有如下討論。
#
專業
#
助理
#
程式
JH Young
2026/03/06
Data Collator 函數呼叫範例討論
在之前「學會調用 Calendar API 或查詢數據庫」一文中,將 API 的定義定義在 System Prompt 中範例有如下討論。
#
專業
#
助理
#
程式
JH Young
2026/03/06
寫一個 HTML 網頁介面,可以在瀏覽器中直接跟 5090 助理對話
這是一個簡單但功能強大的 HTML + Tailwind CSS 前端介面。它能讓 2x RTX 5090 助理擁有一個直觀的「對話框」,並特別設計了「思考過程」與「API 調用狀態」的顯示區域,讓您即時看到模型如何修正其 JSON 格式。 1. 建立前端檔案 index.html
#
網頁
#
助理
#
對話
JH Young
2026/03/06
寫一個 HTML 網頁介面,可以在瀏覽器中直接跟 5090 助理對話
這是一個簡單但功能強大的 HTML + Tailwind CSS 前端介面。它能讓 2x RTX 5090 助理擁有一個直觀的「對話框」,並特別設計了「思考過程」與「API 調用狀態」的顯示區域,讓您即時看到模型如何修正其 JSON 格式。 1. 建立前端檔案 index.html
#
網頁
#
助理
#
對話