-
Notifications
You must be signed in to change notification settings - Fork 1.6k
[优化建议] 添加评论内容采集功能 #339
Copy link
Copy link
Open
Labels
Description
作为数据分析用户,我们希望通过采集小红书数据来进行:
- 舆情分析 - 了解用户对特定话题的真实反馈和情感倾向
- 竞品调研 - 分析竞品账号下用户的关注点和痛点
- 内容优化 - 通过评论内容了解受众兴趣,优化创作方向
- 用户画像 - 基于评论行为构建更精准的用户画像
具体案例
我们在运营多个品牌账号时,需要:
- 采集高互动帖子的评论内容
- 分析用户最常提到的关键词
- 识别用户的购买意向和顾虑点
- 了解竞品的用户反馈
目前只能看到"评论数: 100",但不知道这100条评论具体说了什么。
期望的解决方案 / Proposed Solution
方案一:扩展 API 返回字段(推荐)
在现有 /xhs/detail 接口中增加评论内容字段:
{
"作品ID": "xxx",
"作品标题": "xxx",
"...": "...",
"评论数量": "100",
"评论内容": [
{
"评论ID": "comment_xxx",
"评论内容": "这个产品真的好用吗?",
"评论者昵称": "用户昵称",
"评论者ID": "user_xxx",
"评论时间": "2024-01-15_10:30:00",
"点赞数": "15",
"是否作者回复": false,
"回复内容": null,
"回复时间": null
},
{
"评论ID": "comment_yyy",
"评论内容": "已购买,期待发货!",
"评论者昵称": "另一个用户",
"评论者ID": "user_yyy",
"评论时间": "2024-01-15_11:00:00",
"点赞数": "8",
"是否作者回复": true,
"回复内容": "感谢支持,今天发货哦~",
"回复时间": "2024-01-15_11:30:00"
}
]
}方案二:新增独立 API 端点
新增 /xhs/comments 端点,专门获取评论:
POST /xhs/comments
{
"url": "https://www.xiaohongshu.com/explore/xxx",
"max_comments": 100 // 最多采集多少条评论
}参数建议
| 参数名 | 类型 | 默认值 | 说明 |
|---|---|---|---|
include_comments |
bool | false | 是否包含评论内容 |
max_comments |
int | 50 | 最多采集评论数 |
include_nested |
bool | false | 是否包含楼中楼回复 |
注意事项
- 评论可能较多,需要考虑分页或限制数量
- 楼中楼(二级评论)的采集复杂度更高
- 评论内容可能包含表情符号,需要正确处理编码
- 需要考虑小红书的风控机制,避免频繁请求
附加信息 / Additional Context
环境信息
- XHS-Downloader 版本:最新版
- 使用模式:
python main.py api - 操作系统:Windows / Linux
相关 API 端点
当前使用的端点:
POST /xhs/detail- 获取作品详情- 期望新增:
include_comments参数或独立端点
感谢作者开发这个优秀的工具! 如果能添加评论采集功能,将大大提升数据分析的完整性和价值。
Reactions are currently unavailable