Fan Chen
返回项目页

项目案例

CourseSnap

课程内容采集与 AI 学习资料整理工具

我的角色

产品定义 / MVP 设计 / 原型设计 / 功能取舍 / AI 工作流设计

项目阶段

可运行 MVP / 个人产品实践

关键结果

约 10 小时完成可运行 MVP,打通自动截图、PDF 合成与 AI 总结的端到端学习资料整理流程。

01

背景:从真实学习场景出发

CourseSnap 起点来自一个非常具体的学习场景:很多网课、讲座或会议回放无法直接下载完整课件,用户只能手动截图保存 PPT 页面。这个过程低效、容易漏页,后续整理也很困难。最初我想解决的不是做一个复杂 AI 产品,而是先让课程资料更容易被保存和复习。

02

用户痛点:资料不是没有,而是难以整理

用户在课程结束后通常会拥有很多分散材料:截图、课件、逐字稿、笔记、聊天记录等。问题不只是“能不能识别文字”,而是这些材料很难被组织成一个可阅读、可复习、可继续交给 AI 处理的结构化输入。

  • 手动截图效率低,容易漏页。
  • OCR 对 PPT 截图识别不稳定,容易乱码、漏字、顺序混乱。
  • 图片太分散,不适合阅读和复习。
  • 逐字稿与课程画面分离,AI 总结缺少完整上下文。
03

MVP 方案:自动截图 → PDF → AI 总结

我将产品流程收敛为三步:自动截图检测课程页面变化,只保存新的 PPT 页面;PDF 整理将截图按顺序合成为 PDF,保留课程视觉结构;AI 总结检测 PDF 与 TXT/DOCX 逐字稿,生成结构化学习笔记。最终流程是:自动截图 → 一键合成 PDF → 放入逐字稿 → AI 总结。

04

PRD 摘要

功能用户痛点功能方案优先级
自动截图手动截图效率低页面变化检测,自动保存P0
PDF 合成图片分散不便阅读按顺序合成为 PDFP0
逐字稿检测AI 总结缺上下文检测 TXT/DOCX 是否存在P1
AI 总结整理学习资料耗时生成结构化学习笔记P1
OCR 功能识别不稳定暂不作为核心链路P2 / 放弃
05

用户流程

01

开始录制

02

检测页面变化

03

自动保存截图

04

一键生成 PDF

05

检测逐字稿

06

AI 总结

07

导出学习笔记

06

核心界面原型

原型图

低保真 Figma 原型

我用低保真原型先梳理主界面布局、按钮位置和关键弹窗,验证用户能否顺利从“开始录制”走到“AI 总结”。

交互重点

状态与异常先行

我优先设计录制中、缺少逐字稿、输出完成等关键状态,确保用户在每一步都知道下一步该做什么。

核心界面原型
原型围绕“录制 → 生成 PDF → 补充逐字稿 → AI 总结”这一核心路径展开,用于验证主界面、异常提醒和输出结果的关键交互。
07

真实界面截图/输出

真实界面截图/输出 1
主界面:将开始录制、生成 PDF、开始总结和项目文件夹入口集中在一个轻量界面中。
真实界面截图/输出 2
自动截图:系统根据页面变化自动保存课程截图,并按顺序生成 slide 文件。
真实界面截图/输出 3
PDF 输出:将分散截图合成为连续课程 PDF,方便阅读、归档和后续 AI 处理。
真实界面截图/输出 4
异常提醒:在缺少逐字稿时提示用户补充文件,避免总结流程失败。
真实界面截图/输出 5
AI 总结:结合课程 PDF 与逐字稿,生成结构化学习笔记,完成从课程素材到复习资料的闭环。
08

关键产品决策:让 AI 服务真实流程

这个项目最重要的部分不是功能堆叠,而是在有限时间里判断哪些链路应该自动化,哪些环节应该保留人工控制,哪些能力可以独立提供价值。

  • 为什么放弃 OCR:早期方案是“截图 → OCR → 文本 → AI 总结”,但 OCR 对课程截图不稳定,容易丢失 PPT 的版式、顺序和视觉信息。我最终放弃把 OCR 作为核心链路,改为用 PDF 保留原始视觉结构。
  • 为什么采用 PDF + 逐字稿:PDF 保留课程画面的上下文,逐字稿补充语义内容,两者组合比单独 OCR 更适合作为复习材料和 AI 总结输入。
  • 为什么 API Key 由用户输入:AI 功能需要调用外部模型。如果在应用里内置个人 Key,会带来安全、成本和维护风险;让用户输入自己的 Key 更适合个人工具的分发方式。
  • 为什么 AI 是增强功能而不是使用门槛:PDF 生成功能本身就能解决资料整理问题,用户即使不用 AI,也能获得明确价值。AI 总结只是在资料整理完成后进一步提升效率。
09

技术与实现

这个 MVP 是一个 Python 桌面工具。我使用 PIL / ImageGrab 进行屏幕截图,通过页面变化检测避免重复保存相同页面,并将截图按顺序保存。随后,工具可以把图片合成为 PDF,并自动检测项目文件夹中的 PDF 与 TXT/DOCX 逐字稿。AI 总结部分使用 DashScope 兼容 OpenAI 接口完成调用,最终通过 PyInstaller 打包为 Windows 可运行程序。

10

结果

我约 10 小时完成了可运行 MVP。产品从一个自动截图工具,迭代为“课程资料采集 → PDF 整理 → AI 总结”的完整学习资料整理流程,完成了从用户痛点、产品方案、原型设计、技术实现到交互打包的端到端实践。这个项目的价值不在于堆叠 AI 功能,而在于把 AI 放进一个用户已经存在、但效率很低的学习资料整理流程里。

11

复盘:AI 产品不是堆功能,而是优化输入与流程

这个项目让我意识到,AI 产品的关键不只是模型能力,而是输入质量、流程设计和用户信任。很多时候,真正影响结果的不是能不能调用 AI,而是用户是否能轻松把高质量材料放进流程,并得到稳定、可理解、可继续使用的输出。

12

下一步迭代计划

01

自动截图优化

我发现对于带字幕的视频,即使画面未变化,字幕更新也会触发新的截图。下一步,我计划优化截图逻辑,只在关键页面内容变化时截屏,同时保证字幕信息不会丢失,从而减少多余截图,提高用户复习效率。

02

AI 总结逻辑优化

目前,如果用户没有逐字稿,AI 总结功能会受限。下一步,我打算让 AI 总结功能仅提醒用户缺少逐字稿,说明放入逐字稿可以优化总结效果,但仍允许用户选择继续使用 PPT 生成学习笔记。这样既保留用户控制权,也提高功能可用性和灵活性。