Claude Code Skill: WeChat document deduplicator - 微信文档去重工具

11 stars
3 forks
Python
73 views

SKILL.md

WeChat 文档去重 Skill

基于 Piotr Kołaczkowski (fclones作者) 的去重算法思想设计

功能

扫描微信文件夹中的重复文档(PDF、Word),通过内容指纹识别重复文件,将重复项移动到隔离文件夹等待用户确认删除。

触发词

  • 微信去重
  • 清理微信重复文件
  • wechat dedup

工作流程

  1. 扫描:遍历微信文件夹,找出所有 PDF 和 Word 文档
  2. 指纹计算:对每个文件计算内容指纹(文件大小 + MD5哈希)
  3. 分组:将相同指纹的文件归为一组
  4. 保留策略:每组保留最早创建的文件
  5. 隔离:将重复文件移动到 ~/微信重复文件_待删除/ 文件夹
  6. 报告:生成去重报告,显示节省的空间

使用方法

/wechat-dedup

或直接说:帮我清理微信的重复文件

配置

参数 默认值 说明
扫描路径 微信文件夹 自动检测
文件类型 PDF, DOC, DOCX 可扩展
隔离文件夹 ~/微信重复文件_待删除/ 30天后用户自行删除
保留策略 最早创建 按创建时间

安全机制

  • 不直接删除:只移动到隔离文件夹
  • 保留原始路径:在报告中记录文件原始位置
  • 可恢复:30天内可从隔离文件夹恢复

技术实现

使用 Python 脚本 dedup.py 执行核心逻辑:

  • hashlib 计算 MD5 指纹
  • PyPDF2 读取 PDF 内容(可选)
  • python-docx 读取 Word 内容(可选)

执行脚本

python3 ~/.claude/skills/wechat-dedup/dedup.py