準備圖片 → 多模態分析 → 提取資訊 → 驗證準確性 → 生成報告
體驗 AI 視覺分析與多模態互動
學會在 Gemini CLI 中使用圖片作為輸入,體驗視覺 + 文字的 AI 互動。
從圖片中提取文字、識別物體、分析顏色等不同類型的資訊。
手動檢查 AI 分析結果的準確性,培養批判性思維。
關鍵能力:
圖片準備 × AI 視覺分析 × 資訊提取 × 準確性驗證 × 報告生成
重要:本練習需要你親自準備圖片素材!
你需要找到或創建符合要求的圖片,並根據實際圖片內容調整分析策略。 這不是複製貼上就能完成的練習。
按下 Win + R 輸入 wt 打開終端機:
# 檢查 Python 版本
python --version
# 檢查 Gemini CLI 版本
gemini --version
代表環境已就緒,可直接進入練習。
請改用:npx @google/gemini-cli
在 PowerShell 依序輸入以下指令:
1 cd "$HOME\Desktop"
(無法進入桌面請嘗試:cd "$HOME\OneDrive\Desktop")
2 cd gemini-cli-class
3 mkdir S1B_姓名_Gemini-CLI_練習四 (已建立可跳過)
4 cd S1B_姓名_Gemini-CLI_練習四
5 pwd
# 應顯示 "...Desktop/gemini-cli-class/S1B_姓名_Gemini-CLI_練習四"
依照你的安裝狀態,擇一啟動:
gemini
npx @google/gemini-cli
重點:在 Gemini CLI 內執行系統命令要加「!」(按 ESC 退出)
重要:這個步驟需要你「親自」準備圖片!
請準備以下 3 種類型的圖片(存入當前練習資料夾):
圖片 1:包含文字的圖片
• 檔名:text_image.jpg 或 .png
• 內容:海報、標誌、菜單、書本封面等包含清晰文字的圖片
• 用途:測試 AI 的文字識別能力(OCR)
圖片 2:物品或場景照片
• 檔名:scene_image.jpg 或 .png
• 內容:風景、房間、物品、食物等可以描述的照片
• 用途:測試 AI 的圖像理解與描述能力
圖片 3:色彩豐富的圖片
• 檔名:color_image.jpg 或 .png
• 內容:彩虹、調色盤、藝術作品等顏色鮮明的圖片
• 用途:測試 AI 的顏色識別與分析能力
💡 提示:如何取得圖片?
重要:手動創建一個圖片清單檔案!
# 用記事本創建圖片清單
!notepad images_info.txt
在記事本中輸入以下內容(根據你的實際圖片調整):
=== 圖片清單 ===
圖片 1:text_image.jpg
類型:包含文字的圖片
用途:文字識別(OCR)
實際內容:[簡單描述你準備的圖片內容,例如:「星巴克菜單」]
圖片 2:scene_image.jpg
類型:物品或場景照片
用途:圖像描述
實際內容:[簡單描述,例如:「海灘風景」]
圖片 3:color_image.jpg
類型:色彩豐富的圖片
用途:顏色分析
實際內容:[簡單描述,例如:「彩虹」]
輸入完成後,儲存檔案並關閉記事本。
在 Gemini CLI 對話框內貼上(請將檔名改成你的實際檔名):
請分析同資料夾中的圖片 text_image.jpg(或 .png):
輸出格式:先在對話框顯示識別結果,再輸出到 text_extraction.txt
💡 提示:檢查結果是否準確
對比圖片中的實際文字與 AI 識別的結果,看看是否有遺漏或錯誤。
在 Gemini CLI 對話框內貼上(請將檔名改成你的實際檔名):
請分析同資料夾中的圖片 scene_image.jpg(或 .png):
輸出格式:先在對話框顯示描述結果,再輸出到 image_description.txt
💡 提示:檢查描述是否合理
對照實際圖片,看看 AI 的描述是否準確,有沒有誤判或遺漏重要細節。
在 Gemini CLI 對話框內貼上(請將檔名改成你的實際檔名):
請分析同資料夾中的圖片 color_image.jpg(或 .png):
輸出格式:先在對話框顯示分析結果,再輸出到 color_analysis.txt
💡 提示:檢查顏色識別是否正確
對比實際圖片,看看 AI 識別的顏色是否準確,比例估計是否合理。
在 Gemini CLI 對話框內貼上:
請寫一個 Python 程式 generate_report.py:
輸出要求:只在當前文件夾輸出一個 generate_report.py,不要額外解釋。
# 1) 確認所有檔案齊全
!ls
# 2) 執行報告生成程式
!python generate_report.py
# 3) 用瀏覽器打開 HTML 報告
!start analysis_report.html
手動檢查 HTML 報告:
重要:手動驗證 AI 分析結果!
# 打開記事本創建驗證報告
!notepad verification.txt
在記事本中逐一驗證並記錄:
1. 文字識別(text_image.jpg):
• AI 識別的文字是否完全正確?
• 有沒有遺漏或錯誤的文字?
• 準確度評分(0-10 分):____
2. 圖像描述(scene_image.jpg):
• AI 的描述是否符合實際圖片內容?
• 有沒有誤判或遺漏重要元素?
• 準確度評分(0-10 分):____
3. 顏色分析(color_image.jpg):
• AI 識別的顏色是否正確?
• 比例估計是否合理?
• 準確度評分(0-10 分):____
儲存檔案後關閉記事本。
用以下命令將你與 Gemini CLI 溝通的過程存下來:
完成後用 !ls 確認檔案是否存在。
!notepad reflection.txt
反思內容(必填):
請確認 S1B_姓名_Gemini-CLI_練習四 資料夾中包含以下檔案:
特別提醒: