项目案例

CourseSnap

课程内容采集与 AI 学习资料整理工具

我的角色

产品定义 / MVP 设计 / 原型设计 / 功能取舍 / AI 工作流设计

项目阶段

可运行 MVP / 个人产品实践

关键结果

约 10 小时完成可运行 MVP，打通自动截图、PDF 合成与 AI 总结的端到端学习资料整理流程。

背景：从真实学习场景出发

CourseSnap 起点来自一个非常具体的学习场景：很多网课、讲座或会议回放无法直接下载完整课件，用户只能手动截图保存 PPT 页面。这个过程低效、容易漏页，后续整理也很困难。最初我想解决的不是做一个复杂 AI 产品，而是先让课程资料更容易被保存和复习。

用户痛点：资料不是没有，而是难以整理

用户在课程结束后通常会拥有很多分散材料：截图、课件、逐字稿、笔记、聊天记录等。问题不只是“能不能识别文字”，而是这些材料很难被组织成一个可阅读、可复习、可继续交给 AI 处理的结构化输入。

手动截图效率低，容易漏页。
OCR 对 PPT 截图识别不稳定，容易乱码、漏字、顺序混乱。
图片太分散，不适合阅读和复习。
逐字稿与课程画面分离，AI 总结缺少完整上下文。

MVP 方案：自动截图 → PDF → AI 总结

我将产品流程收敛为三步：自动截图检测课程页面变化，只保存新的 PPT 页面；PDF 整理将截图按顺序合成为 PDF，保留课程视觉结构；AI 总结检测 PDF 与 TXT/DOCX 逐字稿，生成结构化学习笔记。最终流程是：自动截图 → 一键合成 PDF → 放入逐字稿 → AI 总结。

PRD 摘要

功能	用户痛点	功能方案	优先级
自动截图	手动截图效率低	页面变化检测，自动保存	P0
PDF 合成	图片分散不便阅读	按顺序合成为 PDF	P0
逐字稿检测	AI 总结缺上下文	检测 TXT/DOCX 是否存在	P1
AI 总结	整理学习资料耗时	生成结构化学习笔记	P1
OCR 功能	识别不稳定	暂不作为核心链路	P2 / 放弃

用户流程

开始录制

检测页面变化

自动保存截图

一键生成 PDF

检测逐字稿

AI 总结

导出学习笔记

核心界面原型

原型图

低保真 Figma 原型

我用低保真原型先梳理主界面布局、按钮位置和关键弹窗，验证用户能否顺利从“开始录制”走到“AI 总结”。

交互重点

状态与异常先行

我优先设计录制中、缺少逐字稿、输出完成等关键状态，确保用户在每一步都知道下一步该做什么。

核心界面原型 — 原型围绕“录制 → 生成 PDF → 补充逐字稿 → AI 总结”这一核心路径展开，用于验证主界面、异常提醒和输出结果的关键交互。

真实界面截图/输出

真实界面截图/输出 3 — PDF 输出：将分散截图合成为连续课程 PDF，方便阅读、归档和后续 AI 处理。

真实界面截图/输出 4 — 异常提醒：在缺少逐字稿时提示用户补充文件，避免总结流程失败。

真实界面截图/输出 5 — AI 总结：结合课程 PDF 与逐字稿，生成结构化学习笔记，完成从课程素材到复习资料的闭环。

关键产品决策：让 AI 服务真实流程

这个项目最重要的部分不是功能堆叠，而是在有限时间里判断哪些链路应该自动化，哪些环节应该保留人工控制，哪些能力可以独立提供价值。

为什么放弃 OCR：早期方案是“截图 → OCR → 文本 → AI 总结”，但 OCR 对课程截图不稳定，容易丢失 PPT 的版式、顺序和视觉信息。我最终放弃把 OCR 作为核心链路，改为用 PDF 保留原始视觉结构。
为什么采用 PDF + 逐字稿：PDF 保留课程画面的上下文，逐字稿补充语义内容，两者组合比单独 OCR 更适合作为复习材料和 AI 总结输入。
为什么 API Key 由用户输入：AI 功能需要调用外部模型。如果在应用里内置个人 Key，会带来安全、成本和维护风险；让用户输入自己的 Key 更适合个人工具的分发方式。
为什么 AI 是增强功能而不是使用门槛：PDF 生成功能本身就能解决资料整理问题，用户即使不用 AI，也能获得明确价值。AI 总结只是在资料整理完成后进一步提升效率。

技术与实现

这个 MVP 是一个 Python 桌面工具。我使用 PIL / ImageGrab 进行屏幕截图，通过页面变化检测避免重复保存相同页面，并将截图按顺序保存。随后，工具可以把图片合成为 PDF，并自动检测项目文件夹中的 PDF 与 TXT/DOCX 逐字稿。AI 总结部分使用 DashScope 兼容 OpenAI 接口完成调用，最终通过 PyInstaller 打包为 Windows 可运行程序。

结果

我约 10 小时完成了可运行 MVP。产品从一个自动截图工具，迭代为“课程资料采集 → PDF 整理 → AI 总结”的完整学习资料整理流程，完成了从用户痛点、产品方案、原型设计、技术实现到交互打包的端到端实践。这个项目的价值不在于堆叠 AI 功能，而在于把 AI 放进一个用户已经存在、但效率很低的学习资料整理流程里。

复盘：AI 产品不是堆功能，而是优化输入与流程

这个项目让我意识到，AI 产品的关键不只是模型能力，而是输入质量、流程设计和用户信任。很多时候，真正影响结果的不是能不能调用 AI，而是用户是否能轻松把高质量材料放进流程，并得到稳定、可理解、可继续使用的输出。

下一步迭代计划

自动截图优化

我发现对于带字幕的视频，即使画面未变化，字幕更新也会触发新的截图。下一步，我计划优化截图逻辑，只在关键页面内容变化时截屏，同时保证字幕信息不会丢失，从而减少多余截图，提高用户复习效率。

AI 总结逻辑优化

目前，如果用户没有逐字稿，AI 总结功能会受限。下一步，我打算让 AI 总结功能仅提醒用户缺少逐字稿，说明放入逐字稿可以优化总结效果，但仍允许用户选择继续使用 PPT 生成学习笔记。这样既保留用户控制权，也提高功能可用性和灵活性。

记录

查看完整迭代记录：《CourseSnap：从自动截取 PPT，到 PDF 整理，再到 AI 总结》

延伸

Figma 原型 GitHub 仓库 MVP 下载

继续浏览

查看传统文化 AI 视觉查看机器学习驱动的上海房价预测查看Casa Rossi 房地产投资估值查看Monza 电竞酒店可行性研究查看Hedonic 房价回归分析查看文化资产数字化与商业化策略查看内容驱动增长查看教育咨询业务 0 到 1 查看网易产品欧洲市场