使用 BigQuery 串接 Vertex AI 進行文本生成 (分析 Google Cloud 公開資料庫)

2024/06/20 更新2024/06/02 發佈閱讀 6 分鐘

Overview

在文中將會使用 BigQuery 的 hosted remote functions 和 Vertex AI 的大型語言模型（LLM）進行文本生成（text-bison）來分析並生成 GitHub 程式碼公開資料庫的摘要和程式語言識別。

資料庫來自 GitHub Archive Project，該項目包含超過 280 萬個開源 GitHub 存儲庫的完整快照，存儲在 Google BigQuery 公共數據集中。

Preparing the data

在 BigQuery 控制台中，點擊“+ADD”，點擊 “Public Datasets” 並搜索 “github_repos”。

在搜尋結果中，選擇 “GitHub Activity Data”，並點擊 “View Datasets”

展開 github_repos 數據集並選擇 sample_contents 表，點擊 “Preview”，可以預覽部分的數據。

Create the BigQuery dataset

點擊 Project ID 旁的三個點，選擇 "Create Dataset"。
輸入 "bq_llm" 作為 Dataset ID，然後點擊 "Create Dataset"，該 Dataset 將用於儲存下一步創建的模型。

Create the external connection

點擊 “+ ADD” 按鈕，選擇“Connections to external data sources”。
選擇連接類型為 “Vertex AI remote models, remote functions and BigLake (Cloud Resource)” 並將 Connection ID 設置為 “llm-connection”。
點擊 “CREATE CONNECTION”。

複製剛剛建立 Connection 的 Service Account ID
瀏覽到 IAM & Admin 的 console 頁面，在 IAM 頁面上點擊 “+ GRANT ACCESS”。
貼上 Connection 的 Service Account ID 並賦予 Vertex AI User 權限，點擊 “SAVE”

Create a remote ML model

在 BigQuery 頁面，點擊 “+ Compose new query” ，建立一個新查詢。
輸入以下語法

CREATE OR REPLACE MODEL bq_llm.llm_model
  REMOTE WITH CONNECTION `us.llm-connection`
  OPTIONS (remote_service_type = 'CLOUD_AI_LARGE_LANGUAGE_MODEL_V1');

這會創建一個名稱為 llm_model 的模型在。該模型利用 Vertex AI 的 CLOUD_AI_LARGE_LANGUAGE_MODEL_V1 作為遠程函數。完成後，您會在剛剛建立的dataset (bq_llm)看到該模型。

Generate text using the ML model

在 BigQuery 頁面，建立一個新查詢，並執行以下語法進行文本的生成。

SELECT
  ml_generate_text_result['predictions'][0]['content'] AS generated_text,
  ml_generate_text_result['predictions'][0]['safetyAttributes'] AS safety_attributes,
  * EXCEPT (ml_generate_text_result)
FROM
  ML.GENERATE_TEXT(
    MODEL `bq_llm.llm_model`,
    (
  SELECT
        CONCAT('Can you read the code in the following text and generate a summary for what the code is doing and what language it is written in:', content) AS prompt
  FROM
        `bigquery-public-data.github_repos.sample_contents`
  LIMIT 5
    ),
    STRUCT(
      0.2 AS temperature,
      100 AS max_output_tokens));

該 SQL 語法的解釋：

ml_generate_text_result 是從 text generation model 獲取的回應( JSON 格式)，包含生成的文本和安全屬性：
- content 代表生成的文本結果。
- safetyAttributes 內建的內容過濾器，以避免 LLM 產生任何無意的或意想不到的回應。
ML.GENERATE_TEXT 是 BigQuery 中用於訪問 Vertex AI LLM 以執行文本生成任務的函數。
CONCAT 函數將提供的提示詞附加到數據庫記錄中。
github_repos 是公共數據集的名稱，而 sample_contents 是使用的 Table 名稱。
temperature 是控制回應隨機性的提詞參數—數值越小，相關性越高。
max_output_tokens 是您希望回應中包含的詞數。

執行語句查詢後，模型生成結果如下:

延伸閱讀

Tutorial: Analyze an object table by using a remote function | Bigquery

Generate text by using the ML.GENERATE_TEXT function | Bigquery

The ML.GENERATE_TEXT function | Bigquery

Model versions and lifecycle | Generative AI on Vertex AI

Text | Generative AI on Vertex AI

REF:

https://www.cloudskillsboost.google/focuses/74646?parent=catalog

留言

Marcos的方格子

26會員

52內容數

歡迎來到「Marcos的方格子」！目前在「Marcos談科技」撰寫在職涯上學習到的知識，在「Marcos談書」分享我在日常的閱讀和心得，歡迎您的到來!!

Marcos的方格子的其他內容

2024/12/21

DevOps Taiwan Meetup#65 RECAP：可觀測性 Observability

可觀測性（Observability）是現代架構中的核心能力，透過指標、日誌和分散式追蹤三大支柱，幫助開發者深入理解系統狀態並快速定位問題根源。本篇文章回顧 DevOps Taiwan Meetup 的精彩內容，解析可觀測性與監控的差異、建置流程的四大階段，以及實務應用中的工具選擇與導入時機！

2024/12/21

DevOps Taiwan Meetup#65 RECAP：可觀測性 Observability

2024/12/14

2024 CKA 題幹解答紀錄

本篇文章針對 CKA 認證考試中常見的實作題目，提供詳細解題流程與指令範例。內容基於 examtopic 題目解析，幫助考生掌握實作技能與應試技巧，快速提升 Kubernetes 操作能力，為通過 CKA 考試做好萬全準備！

2024/12/14

2024 CKA 題幹解答紀錄

2024/09/17

我如何一年內考取 Google Cloud 所有雲端證照｜Google Cloud

如何一年內考取 Google Cloud 所有雲端證照

2024/09/17

我如何一年內考取 Google Cloud 所有雲端證照｜Google Cloud

如何一年內考取 Google Cloud 所有雲端證照

看更多

你可能也想看

私大王牌教授 (私人大學ACE) feat. mr gary

使用AI論文工具進行文獻回顧與研究方法

這篇文章介紹瞭如何利用AI論文工具來提高研究生的論文閱讀效率以及寫作效率。透過Connected Papers、Scispace和Immersive Translate等AI工具，可以進行文獻回顧、段落摘要生成、Paraphrasing、APA格式生成以及論文對照翻譯

#論文#ispace#文獻

2024/04/25

私大王牌教授 (私人大學ACE) feat. mr gary

使用AI論文工具進行文獻回顧與研究方法

#論文#ispace#文獻

2024/04/25

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

#ChatGPT#AlphaGo#人工智慧

2024/07/19

Benjamin的沙龍

SearchGPT 概覽：對比傳統搜尋引擎和其他 AI 搜尋引擎的優勢

SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎，結合了傳統搜尋引擎技術和最新的 AI 技術，能即時從互聯網獲取資訊。它與其他搜尋引擎相比，提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。

#OpenAI#Google#SEARCHGPT

2024/08/04

Benjamin的沙龍

SearchGPT 概覽：對比傳統搜尋引擎和其他 AI 搜尋引擎的優勢

#OpenAI#Google#SEARCHGPT

2024/08/04

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11