信息采集与过滤需求列表
信息采集需求 (Information Gathering Needs)
-
核心数据源支持:
- 支持 RSS 订阅源作为主要信息来源。
- 支持用户自定义、可信赖的 RSS 数据源。
- 能够集成 RSSHub,扩展信息源的多样性。
-
多类型数据源扩展 (未来规划)
- 支持采集邮件内容。
- 支持通过浏览器插件(如 Chrome 插件)进行网页剪藏。
- 支持将搜索引擎结果作为数据源。
- 考虑支持爬虫采集网页 (需注意版权风险)。
-
主动信息追踪:
- 支持配置信息追踪任务,监控特定新闻或话题。
- 强调高质量、可自定义的数据源用于追踪。
-
私有数据集成:
-
定时采集:
信息过滤与处理需求 (Information Filtering & Processing Needs)
-
基础过滤与管理:
- 提供界面(如 Web 端)进行信息预览。
- 支持将信息标记为已读,并从列表中移除,以减少信息干扰。
-
AI 驱动的内容处理:
- 智能筛选: 自动筛选用户关注的新闻或话题。
- 内容摘要: 利用 AI(如 Qwen 等)生成内容摘要,支持可视化格式。
- 内容评分: 基于自定义 Prompt,使用 AI 对内容进行评分。
- 内容分类: 基于自定义 Prompt,使用 AI 对内容进行自动分类。
- 标签生成: 基于自定义 Prompt,使用 AI 为内容自动打标签(Tags)。
- 语言处理: 支持在 AI 处理中指定输出语言。
-
自定义处理流程(管道化处理):
- 提供类似 Prometheus Relabeling 的自定义处理机制 (Rewrite Rules)。
- 将每篇内容抽象为标签集合(标题、来源、正文、评分等)。
- 允许用户在管道节点上基于自定义 Prompt 处理标签值。
- 支持灵活编排处理流程,实现个性化。
-
高级过滤规则:
- 基于内容的标签(评分、分类、长度等)进行查询和过滤。
- 支持通过正则表达式 (
match_re
) 匹配过滤。
- 支持定义规则丢弃信息(如
action: drop_feed
)。
-
搜索与分析:
- 语义搜索: 内容向量化存储,支持语义查询分析 (MCP)。
- 关键词搜索 (未来规划)
- 聚合分析: 支持对特定范围/主题的内容进行聚合分析。
-
信息路由与通知:
- 基于标签或规则,将信息路由到不同通知渠道。
- 支持邮件发送每日简报。
- 考虑支持 Webhook 通知 (需注意风险)。
-
内容增强 (用户建议)
- 考虑用户自定义插件系统进行标记/过滤/增强。
- 支持信息二次处理或追踪 (部分依赖源或 Prompt)。
-
多模态输出 (未来规划)