Rssx | Metawen

作为一个专业领域的技术专家，我需要实时了解全面的信息。市面上的RSS工具要么功能复杂臃肿，要么部分需求不支持，最大的问题是不能在同一个平台浏览所有信息源。经过一番调研，我决定用Kiro写一个轻量级的RSS聚合工具。令人惊喜的是，一个周末就完成了整个系统，并成功同步了近5000篇文章（标题+链接）。这篇文章将详细介绍整体架构和实现的技术难点，展示Kiro在复杂系统开发中的不凡能力。先放一些截图吧。 Kiro开发界面，可以看到整个项目完成差不多只用了不到 200 Bonus，实际编码时间估计也就1天时间。 Web首页（没有做任何UI调教，自己凑合能用），支持浏览最新资讯，筛选搜索，采集特定文章。网站管理页面，主要是指定标题、链接、时间的元素。且支持API方式获取，同样配置好JSON匹配规则。微信公众号管理页面，公众号支持批量导入，图标转存到了腾讯云，否则防盗链无法展示，可以设置同步页数/同步间隔，同时记录了最后同步时间。还有一个页面主要记录微信管理员cookie，比较简单就不展示了。另外针对部分文章会采集转换成markdown格式存储到本地，图片也做了处理，文章可以正常展示，后续打算基于有价值的文章做一个垂直领域的RAG。（以下绝大部分直接用Kiro在项目中生成）系统需求分析核心需求多源聚合：支持传统网站RSS、API接口、微信公众号文章统一管理：在同一个平台浏览和管理所有信息源智能处理：自动去重、内容清理、图片处理、HTML转Markdown Web界面：提供直观的管理和浏览界面文章同步：将RSS文章同步到标准化的articles表高性能：支持大量文章的存储和检索技术挑战异构数据源整合：不同平台的数据格式差异巨大微信反爬虫：微信公众号的访问限制和安全机制 API网站支持：政府部门API接口的调用和数据转换内容处理：HTML转Markdown、图片上传COS、推广内容清理数据一致性：避免重复文章，保证数据完整性性能优化：大量文章的存储和快速检索多管理员机制：微信账号轮换和频率限制处理系统架构设计整体架构 ┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐ │ 数据采集层 │ │ 数据处理层 │ │ 应用服务层 │ ├─────────────────┤ ├─────────────────┤ ├─────────────────┤ │ • 网站爬虫 │ │ • 内容清理 │ │ • Web管理界面 │ │ • 微信爬虫 │ │ • 图片处理 │ │ • REST API │ │ • API接口 │ │ • 格式转换 │ │ • 文章同步 │ │ • 多管理员轮换 │ │ • HTML转MD │ │ • 一键采集 │ └─────────────────┘ └─────────────────┘ └─────────────────┘ │ │ │ └───────────────────────┼───────────────────────┘ │ ┌─────────────────┐ │ 数据存储层 │ ├─────────────────┤ │ • PostgreSQL │ │ • 腾讯云COS │ │ • 双表结构 │ └─────────────────┘ 数据流架构原始数据源 → RSS采集表 → 内容处理 → 标准化文章表 → Web展示 ↓ ↓ ↓ ↓ ↓ 网站/API rss_articles 图片上传 articles 用户界面微信公众号 _list HTML转MD 表管理后台核心模块 1. 数据库设计 (database.py) 采用PostgreSQL作为主数据库，设计了双表结构： ...