練習四:Gemini CLI 圖片分析


準備圖片 → 多模態分析 → 提取資訊 → 驗證準確性 → 生成報告

體驗 AI 視覺分析與多模態互動

#S1B 資訊科技 #圖片分析 #多模態 AI
本練習目標
多模態輸入

學會在 Gemini CLI 中使用圖片作為輸入,體驗視覺 + 文字的 AI 互動。

資訊提取

從圖片中提取文字、識別物體、分析顏色等不同類型的資訊。

結果驗證

手動檢查 AI 分析結果的準確性,培養批判性思維。

關鍵能力:

圖片準備 × AI 視覺分析 × 資訊提取 × 準確性驗證 × 報告生成

本練習的挑戰

需要手動準備

  • 手動下載或截取 3 張不同類型的圖片
  • 手動創建圖片資料清單
  • 手動驗證每個分析結果是否準確

需要思考判斷

  • 根據圖片內容選擇合適的分析方式
  • 判斷 AI 分析結果是否合理
  • 思考不同類型圖片的最佳用途

重要:本練習需要你親自準備圖片素材!

你需要找到或創建符合要求的圖片,並根據實際圖片內容調整分析策略。 這不是複製貼上就能完成的練習。

步驟 0:環境準備檢查

按下 Win + R 輸入 wt 打開終端機:

# 檢查 Python 版本

python --version

# 檢查 Gemini CLI 版本

gemini --version

看到版本號

代表環境已就緒,可直接進入練習。

找不到 gemini

請改用:npx @google/gemini-cli

步驟 1:建立練習資料夾

在 PowerShell 依序輸入以下指令:

1 cd "$HOME\Desktop"

(無法進入桌面請嘗試:cd "$HOME\OneDrive\Desktop")

2 cd gemini-cli-class

3 mkdir S1B_姓名_Gemini-CLI_練習四 (已建立可跳過)

4 cd S1B_姓名_Gemini-CLI_練習四

5 pwd

# 應顯示 "...Desktop/gemini-cli-class/S1B_姓名_Gemini-CLI_練習四"

步驟 2:啟動 Gemini CLI

依照你的安裝狀態,擇一啟動:

方式 A:已安裝

gemini

方式 B:未安裝

npx @google/gemini-cli

重點:在 Gemini CLI 內執行系統命令要加「!」(按 ESC 退出)

步驟 3:手動準備 3 張圖片

重要:這個步驟需要你「親自」準備圖片!

請準備以下 3 種類型的圖片(存入當前練習資料夾):

圖片 1:包含文字的圖片

• 檔名:text_image.jpg.png

• 內容:海報、標誌、菜單、書本封面等包含清晰文字的圖片

• 用途:測試 AI 的文字識別能力(OCR)

圖片 2:物品或場景照片

• 檔名:scene_image.jpg.png

• 內容:風景、房間、物品、食物等可以描述的照片

• 用途:測試 AI 的圖像理解與描述能力

圖片 3:色彩豐富的圖片

• 檔名:color_image.jpg.png

• 內容:彩虹、調色盤、藝術作品等顏色鮮明的圖片

• 用途:測試 AI 的顏色識別與分析能力

💡 提示:如何取得圖片?

  • 從網路搜尋並下載(注意版權)
  • 使用手機拍攝後傳到電腦
  • 截取螢幕畫面(Win + Shift + S
  • 使用電腦內現有的圖片

步驟 4:手動創建圖片清單

重要:手動創建一個圖片清單檔案!

# 用記事本創建圖片清單

!notepad images_info.txt

在記事本中輸入以下內容(根據你的實際圖片調整):

=== 圖片清單 ===

圖片 1:text_image.jpg

類型:包含文字的圖片

用途:文字識別(OCR)

實際內容:[簡單描述你準備的圖片內容,例如:「星巴克菜單」]

圖片 2:scene_image.jpg

類型:物品或場景照片

用途:圖像描述

實際內容:[簡單描述,例如:「海灘風景」]

圖片 3:color_image.jpg

類型:色彩豐富的圖片

用途:顏色分析

實際內容:[簡單描述,例如:「彩虹」]

輸入完成後,儲存檔案並關閉記事本。

步驟 5:分析圖片 1(文字識別)

在 Gemini CLI 對話框內貼上(請將檔名改成你的實際檔名):

請分析同資料夾中的圖片 text_image.jpg(或 .png):

  • 識別圖片中所有可見的文字內容
  • 按照從上到下、從左到右的順序列出
  • 保持原文的語言(中文/英文等)
  • 如果有標題、副標題等層級,請標註清楚
  • 將提取的文字用繁體中文說明並輸出到 text_extraction.txt(UTF-8)

輸出格式:先在對話框顯示識別結果,再輸出到 text_extraction.txt

💡 提示:檢查結果是否準確

對比圖片中的實際文字與 AI 識別的結果,看看是否有遺漏或錯誤。

步驟 6:分析圖片 2(圖像描述)

在 Gemini CLI 對話框內貼上(請將檔名改成你的實際檔名):

請分析同資料夾中的圖片 scene_image.jpg(或 .png):

  • 詳細描述圖片中的主要物體、場景或人物
  • 描述圖片的構圖、光線、氛圍
  • 識別圖片中的關鍵元素(例如:建築、植物、動物等)
  • 估計拍攝時間(白天/傍晚/夜晚)或季節(如果可以判斷)
  • 用繁體中文將描述輸出到 image_description.txt(UTF-8)

輸出格式:先在對話框顯示描述結果,再輸出到 image_description.txt

💡 提示:檢查描述是否合理

對照實際圖片,看看 AI 的描述是否準確,有沒有誤判或遺漏重要細節。

步驟 7:分析圖片 3(顏色分析)

在 Gemini CLI 對話框內貼上(請將檔名改成你的實際檔名):

請分析同資料夾中的圖片 color_image.jpg(或 .png):

  • 識別圖片中的主要顏色(至少列出前 5 種)
  • 描述每種顏色佔據的大致比例
  • 分析整體色調(暖色調/冷色調/中性)
  • 描述顏色的飽和度與明度(鮮豔/柔和/暗淡等)
  • 評估顏色組合的和諧度與視覺效果
  • 用繁體中文將分析結果輸出到 color_analysis.txt(UTF-8)

輸出格式:先在對話框顯示分析結果,再輸出到 color_analysis.txt

💡 提示:檢查顏色識別是否正確

對比實際圖片,看看 AI 識別的顏色是否準確,比例估計是否合理。

步驟 8:生成整合報告程式

在 Gemini CLI 對話框內貼上:

請寫一個 Python 程式 generate_report.py

  • 讀取以下檔案:
    • images_info.txt(圖片清單)
    • text_extraction.txt(文字識別結果)
    • image_description.txt(圖像描述結果)
    • color_analysis.txt(顏色分析結果)
  • 生成一個 HTML 報告 analysis_report.html,包含:
    • 報告標題:「圖片分析報告」
    • 生成時間
    • 圖片清單(表格形式)
    • 三個分析結果(分別用不同區塊呈現)
    • 美觀的 CSS 樣式(顏色、邊框、間距)
  • 不可使用第三方套件(只用 Python 標準庫)

輸出要求:只在當前文件夾輸出一個 generate_report.py,不要額外解釋。

步驟 9:執行程式並查看報告

# 1) 確認所有檔案齊全

!ls

# 2) 執行報告生成程式

!python generate_report.py

# 3) 用瀏覽器打開 HTML 報告

!start analysis_report.html

手動檢查 HTML 報告:

  • 所有分析結果是否正確顯示
  • 格式是否美觀易讀
  • 圖片清單是否完整
  • 生成時間是否正確

步驟 10:驗證分析準確性

重要:手動驗證 AI 分析結果!

# 打開記事本創建驗證報告

!notepad verification.txt

在記事本中逐一驗證並記錄:

1. 文字識別(text_image.jpg):

• AI 識別的文字是否完全正確?

• 有沒有遺漏或錯誤的文字?

• 準確度評分(0-10 分):____

2. 圖像描述(scene_image.jpg):

• AI 的描述是否符合實際圖片內容?

• 有沒有誤判或遺漏重要元素?

• 準確度評分(0-10 分):____

3. 顏色分析(color_image.jpg):

• AI 識別的顏色是否正確?

• 比例估計是否合理?

• 準確度評分(0-10 分):____

儲存檔案後關閉記事本。

步驟 11:匯出對話紀錄

用以下命令將你與 Gemini CLI 溝通的過程存下來:

/chat share chat_history.md

完成後用 !ls 確認檔案是否存在。

反思:寫下你的總結

!notepad reflection.txt

反思內容(必填):

  1. 在三種分析任務中(文字識別、圖像描述、顏色分析),哪一種的準確度最高?你認為為什麼?
  2. 你準備的圖片對分析結果有什麼影響?如果重新選擇圖片,你會選什麼類型的?
  3. AI 在分析過程中有沒有讓你驚訝或失望的地方?請具體說明。
  4. 你認為圖片分析功能可以用在哪些實際場景?(例如:整理照片、翻譯標誌等)

作業檢查清單

請確認 S1B_姓名_Gemini-CLI_練習四 資料夾中包含以下檔案:

text_image.jpg/.png
scene_image.jpg/.png
color_image.jpg/.png
images_info.txt
text_extraction.txt
image_description.txt
color_analysis.txt
generate_report.py
analysis_report.html
verification.txt
chat_history.md
reflection.txt
上傳整個資料夾至 Google Drive

特別提醒:

  • 確保所有 3 張圖片都已包含在資料夾中
  • 確認 HTML 報告可以正常在瀏覽器中打開
  • 確認 verification.txt 中已填寫所有驗證結果
第 1 / 17 頁
上一頁 下一頁 | Tom