Skip to content

[优化建议] 添加评论内容采集功能 #339

@278452825zsq-dotcom

Description

@278452825zsq-dotcom

作为数据分析用户,我们希望通过采集小红书数据来进行:

  1. 舆情分析 - 了解用户对特定话题的真实反馈和情感倾向
  2. 竞品调研 - 分析竞品账号下用户的关注点和痛点
  3. 内容优化 - 通过评论内容了解受众兴趣,优化创作方向
  4. 用户画像 - 基于评论行为构建更精准的用户画像

具体案例

我们在运营多个品牌账号时,需要:

  • 采集高互动帖子的评论内容
  • 分析用户最常提到的关键词
  • 识别用户的购买意向和顾虑点
  • 了解竞品的用户反馈

目前只能看到"评论数: 100",但不知道这100条评论具体说了什么。

期望的解决方案 / Proposed Solution

方案一:扩展 API 返回字段(推荐)

在现有 /xhs/detail 接口中增加评论内容字段:

{
  "作品ID": "xxx",
  "作品标题": "xxx",
  "...": "...",
  "评论数量": "100",
  "评论内容": [
    {
      "评论ID": "comment_xxx",
      "评论内容": "这个产品真的好用吗?",
      "评论者昵称": "用户昵称",
      "评论者ID": "user_xxx",
      "评论时间": "2024-01-15_10:30:00",
      "点赞数": "15",
      "是否作者回复": false,
      "回复内容": null,
      "回复时间": null
    },
    {
      "评论ID": "comment_yyy",
      "评论内容": "已购买,期待发货!",
      "评论者昵称": "另一个用户",
      "评论者ID": "user_yyy",
      "评论时间": "2024-01-15_11:00:00",
      "点赞数": "8",
      "是否作者回复": true,
      "回复内容": "感谢支持,今天发货哦~",
      "回复时间": "2024-01-15_11:30:00"
    }
  ]
}

方案二:新增独立 API 端点

新增 /xhs/comments 端点,专门获取评论:

POST /xhs/comments
{
  "url": "https://www.xiaohongshu.com/explore/xxx",
  "max_comments": 100  // 最多采集多少条评论
}

参数建议

参数名 类型 默认值 说明
include_comments bool false 是否包含评论内容
max_comments int 50 最多采集评论数
include_nested bool false 是否包含楼中楼回复

注意事项

  • 评论可能较多,需要考虑分页或限制数量
  • 楼中楼(二级评论)的采集复杂度更高
  • 评论内容可能包含表情符号,需要正确处理编码
  • 需要考虑小红书的风控机制,避免频繁请求

附加信息 / Additional Context

环境信息

  • XHS-Downloader 版本:最新版
  • 使用模式:python main.py api
  • 操作系统:Windows / Linux

相关 API 端点

当前使用的端点:

  • POST /xhs/detail - 获取作品详情
  • 期望新增:include_comments 参数或独立端点

感谢作者开发这个优秀的工具! 如果能添加评论采集功能,将大大提升数据分析的完整性和价值。

Metadata

Metadata

Assignees

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions