信息采集与过滤需求列表

信息采集需求 (Information Gathering Needs)

核心数据源支持：
- 支持 RSS 订阅源作为主要信息来源。
- 支持用户自定义、可信赖的 RSS 数据源。
- 能够集成 RSSHub，扩展信息源的多样性。
多类型数据源扩展 (未来规划)
- 支持采集邮件内容。
- 支持通过浏览器插件（如 Chrome 插件）进行网页剪藏。
- 支持将搜索引擎结果作为数据源。
- 考虑支持爬虫采集网页 (需注意版权风险)。
主动信息追踪：
- 支持配置信息追踪任务，监控特定新闻或话题。
- 强调高质量、可自定义的数据源用于追踪。
私有数据集成：
- 提供 Push API，允许用户集成私有数据。
定时采集：
- 支持按计划（如每日）自动采集信息。

信息过滤与处理需求 (Information Filtering & Processing Needs)

基础过滤与管理：
- 提供界面（如 Web 端）进行信息预览。
- 支持将信息标记为已读，并从列表中移除，以减少信息干扰。
AI 驱动的内容处理：
- 智能筛选： 自动筛选用户关注的新闻或话题。
- 内容摘要： 利用 AI（如 Qwen 等）生成内容摘要，支持可视化格式。
- 内容评分： 基于自定义 Prompt，使用 AI 对内容进行评分。
- 内容分类： 基于自定义 Prompt，使用 AI 对内容进行自动分类。
- 标签生成： 基于自定义 Prompt，使用 AI 为内容自动打标签（Tags）。
- 语言处理： 支持在 AI 处理中指定输出语言。
自定义处理流程（管道化处理）：
- 提供类似 Prometheus Relabeling 的自定义处理机制 (Rewrite Rules)。
- 将每篇内容抽象为标签集合（标题、来源、正文、评分等）。
- 允许用户在管道节点上基于自定义 Prompt 处理标签值。
- 支持灵活编排处理流程，实现个性化。
高级过滤规则：
- 基于内容的标签（评分、分类、长度等）进行查询和过滤。
- 支持通过正则表达式 (match_re) 匹配过滤。
- 支持定义规则丢弃信息（如 action: drop_feed）。
搜索与分析：
- 语义搜索： 内容向量化存储，支持语义查询分析 (MCP)。
- 关键词搜索 (未来规划)
- 聚合分析： 支持对特定范围/主题的内容进行聚合分析。
信息路由与通知：
- 基于标签或规则，将信息路由到不同通知渠道。
- 支持邮件发送每日简报。
- 考虑支持 Webhook 通知 (需注意风险)。
内容增强 (用户建议)
- 考虑用户自定义插件系统进行标记/过滤/增强。
- 支持信息二次处理或追踪 (部分依赖源或 Prompt)。
多模态输出 (未来规划)
- 支持将内容生成为播客。