Gemini CLI 練習四

練習四：Gemini CLI 圖片分析

準備圖片 → 多模態分析 → 提取資訊 → 驗證準確性 → 生成報告

體驗 AI 視覺分析與多模態互動

#S1B 資訊科技 #圖片分析 #多模態 AI

本練習目標

多模態輸入

學會在 Gemini CLI 中使用圖片作為輸入，體驗視覺 + 文字的 AI 互動。

資訊提取

從圖片中提取文字、識別物體、分析顏色等不同類型的資訊。

結果驗證

手動檢查 AI 分析結果的準確性，培養批判性思維。

關鍵能力：

圖片準備 × AI 視覺分析 × 資訊提取 × 準確性驗證 × 報告生成

本練習的挑戰

需要手動準備

手動下載或截取 3 張不同類型的圖片
手動創建圖片資料清單
手動驗證每個分析結果是否準確

需要思考判斷

根據圖片內容選擇合適的分析方式
判斷 AI 分析結果是否合理
思考不同類型圖片的最佳用途

重要：本練習需要你親自準備圖片素材！

你需要找到或創建符合要求的圖片，並根據實際圖片內容調整分析策略。這不是複製貼上就能完成的練習。

步驟 0：環境準備檢查

按下 Win + R 輸入 wt 打開終端機：

# 檢查 Python 版本

python --version

# 檢查 Gemini CLI 版本

gemini --version

看到版本號

代表環境已就緒，可直接進入練習。

找不到 gemini

請改用：npx @google/gemini-cli

步驟 1：建立練習資料夾

在 PowerShell 依序輸入以下指令：

1 cd "$HOME\Desktop"

(無法進入桌面請嘗試：cd "$HOME\OneDrive\Desktop")

2 cd gemini-cli-class

3 mkdir S1B_姓名_Gemini-CLI_練習四（已建立可跳過）

4 cd S1B_姓名_Gemini-CLI_練習四

5 pwd

# 應顯示 "...Desktop/gemini-cli-class/S1B_姓名_Gemini-CLI_練習四"

步驟 2：啟動 Gemini CLI

依照你的安裝狀態，擇一啟動：

方式 A：已安裝

gemini

方式 B：未安裝

npx @google/gemini-cli

重點：在 Gemini CLI 內執行系統命令要加「!」（按 ESC 退出）

步驟 3：手動準備 3 張圖片

重要：這個步驟需要你「親自」準備圖片！

請準備以下 3 種類型的圖片（存入當前練習資料夾）：

圖片 1：包含文字的圖片

• 檔名：text_image.jpg 或 .png

• 內容：海報、標誌、菜單、書本封面等包含清晰文字的圖片

• 用途：測試 AI 的文字識別能力（OCR）

圖片 2：物品或場景照片

• 檔名：scene_image.jpg 或 .png

• 內容：風景、房間、物品、食物等可以描述的照片

• 用途：測試 AI 的圖像理解與描述能力

圖片 3：色彩豐富的圖片

• 檔名：color_image.jpg 或 .png

• 內容：彩虹、調色盤、藝術作品等顏色鮮明的圖片

• 用途：測試 AI 的顏色識別與分析能力

💡 提示：如何取得圖片？

從網路搜尋並下載（注意版權）
使用手機拍攝後傳到電腦
截取螢幕畫面（Win + Shift + S）
使用電腦內現有的圖片

步驟 4：手動創建圖片清單

重要：手動創建一個圖片清單檔案！

# 用記事本創建圖片清單

!notepad images_info.txt

在記事本中輸入以下內容（根據你的實際圖片調整）：

=== 圖片清單 ===

圖片 1：text_image.jpg

類型：包含文字的圖片

用途：文字識別（OCR）

實際內容：[簡單描述你準備的圖片內容，例如：「星巴克菜單」]

圖片 2：scene_image.jpg

類型：物品或場景照片

用途：圖像描述

實際內容：[簡單描述，例如：「海灘風景」]

圖片 3：color_image.jpg

類型：色彩豐富的圖片

用途：顏色分析

實際內容：[簡單描述，例如：「彩虹」]

輸入完成後，儲存檔案並關閉記事本。

步驟 5：分析圖片 1（文字識別）

在 Gemini CLI 對話框內貼上（請將檔名改成你的實際檔名）：

請分析同資料夾中的圖片 text_image.jpg（或 .png）：

識別圖片中所有可見的文字內容
按照從上到下、從左到右的順序列出
保持原文的語言（中文/英文等）
如果有標題、副標題等層級，請標註清楚
將提取的文字用繁體中文說明並輸出到 text_extraction.txt（UTF-8）

輸出格式：先在對話框顯示識別結果，再輸出到 text_extraction.txt

💡 提示：檢查結果是否準確

對比圖片中的實際文字與 AI 識別的結果，看看是否有遺漏或錯誤。

步驟 6：分析圖片 2（圖像描述）

在 Gemini CLI 對話框內貼上（請將檔名改成你的實際檔名）：

請分析同資料夾中的圖片 scene_image.jpg（或 .png）：

詳細描述圖片中的主要物體、場景或人物
描述圖片的構圖、光線、氛圍
識別圖片中的關鍵元素（例如：建築、植物、動物等）
估計拍攝時間（白天/傍晚/夜晚）或季節（如果可以判斷）
用繁體中文將描述輸出到 image_description.txt（UTF-8）

輸出格式：先在對話框顯示描述結果，再輸出到 image_description.txt

💡 提示：檢查描述是否合理

對照實際圖片，看看 AI 的描述是否準確，有沒有誤判或遺漏重要細節。

步驟 7：分析圖片 3（顏色分析）

在 Gemini CLI 對話框內貼上（請將檔名改成你的實際檔名）：

請分析同資料夾中的圖片 color_image.jpg（或 .png）：

識別圖片中的主要顏色（至少列出前 5 種）
描述每種顏色佔據的大致比例
分析整體色調（暖色調/冷色調/中性）
描述顏色的飽和度與明度（鮮豔/柔和/暗淡等）
評估顏色組合的和諧度與視覺效果
用繁體中文將分析結果輸出到 color_analysis.txt（UTF-8）

輸出格式：先在對話框顯示分析結果，再輸出到 color_analysis.txt

💡 提示：檢查顏色識別是否正確

對比實際圖片，看看 AI 識別的顏色是否準確，比例估計是否合理。

步驟 8：生成整合報告程式

在 Gemini CLI 對話框內貼上：

請寫一個 Python 程式 generate_report.py：

讀取以下檔案：
- images_info.txt（圖片清單）
- text_extraction.txt（文字識別結果）
- image_description.txt（圖像描述結果）
- color_analysis.txt（顏色分析結果）
生成一個 HTML 報告 analysis_report.html，包含：
- 報告標題：「圖片分析報告」
- 生成時間
- 圖片清單（表格形式）
- 三個分析結果（分別用不同區塊呈現）
- 美觀的 CSS 樣式（顏色、邊框、間距）
不可使用第三方套件（只用 Python 標準庫）

輸出要求：只在當前文件夾輸出一個 generate_report.py，不要額外解釋。

步驟 9：執行程式並查看報告

# 1) 確認所有檔案齊全

!ls

# 2) 執行報告生成程式

!python generate_report.py

# 3) 用瀏覽器打開 HTML 報告

!start analysis_report.html

手動檢查 HTML 報告：

所有分析結果是否正確顯示
格式是否美觀易讀
圖片清單是否完整
生成時間是否正確

步驟 10：驗證分析準確性

重要：手動驗證 AI 分析結果！

# 打開記事本創建驗證報告

!notepad verification.txt

在記事本中逐一驗證並記錄：

1. 文字識別（text_image.jpg）：

• AI 識別的文字是否完全正確？

• 有沒有遺漏或錯誤的文字？

• 準確度評分（0-10 分）：____

2. 圖像描述（scene_image.jpg）：

• AI 的描述是否符合實際圖片內容？

• 有沒有誤判或遺漏重要元素？

• 準確度評分（0-10 分）：____

3. 顏色分析（color_image.jpg）：

• AI 識別的顏色是否正確？

• 比例估計是否合理？

• 準確度評分（0-10 分）：____

儲存檔案後關閉記事本。

步驟 11：匯出對話紀錄

用以下命令將你與 Gemini CLI 溝通的過程存下來：

/chat share chat_history.md

完成後用 !ls 確認檔案是否存在。

反思：寫下你的總結

!notepad reflection.txt

反思內容（必填）：

在三種分析任務中（文字識別、圖像描述、顏色分析），哪一種的準確度最高？你認為為什麼？
你準備的圖片對分析結果有什麼影響？如果重新選擇圖片，你會選什麼類型的？
AI 在分析過程中有沒有讓你驚訝或失望的地方？請具體說明。
你認為圖片分析功能可以用在哪些實際場景？（例如：整理照片、翻譯標誌等）

作業檢查清單

請確認 S1B_姓名_Gemini-CLI_練習四資料夾中包含以下檔案：

text_image.jpg/.png

scene_image.jpg/.png

color_image.jpg/.png

images_info.txt

text_extraction.txt

image_description.txt

color_analysis.txt

generate_report.py

analysis_report.html

verification.txt

chat_history.md

reflection.txt

上傳整個資料夾至 Google Drive

特別提醒：

確保所有 3 張圖片都已包含在資料夾中
確認 HTML 報告可以正常在瀏覽器中打開
確認 verification.txt 中已填寫所有驗證結果