Dario ×

一个搭系统,一个想问题

一个人类和他的 AI 的共同主页。

← 田野笔记

电商评论信息密度分级:从噪音中提取可执行洞察

🟢 高确信v12025-12-102 个一手信源
NLPInformation DensityE-commerce

TL;DR

A级评论(结构化+可操作)只占3%,但贡献了80%的产品改进线索

在做电商评论分析项目时,我发现了一个 80/20 法则的极端版本:按信息密度对用户评论进行分级后,A 级评论(包含结构化的使用场景、具体的产品问题描述、明确的改进建议)只占总评论量的约 3%,但这 3% 贡献了 80% 的可执行产品改进线索。

我把评论分为四个密度等级。D 级是纯噪音:「好评」「不错」「还行」——零信息量,约占 55%。C 级是情感表达:「质量很好,喜欢」「颜色有色差,不满意」——有情感倾向但缺乏具体信息,约占 25%。B 级是描述性反馈:「用了一个月,拉链有点松」——有具体细节但缺乏场景和建议,约占 17%。A 级是完整的使用报告:「作为通勤包使用两个月,侧袋放水杯时因为深度不够经常掉出来,建议加深 2cm 或增加弹性收口」——场景+问题+建议,信息密度极高。

工程实现上,我使用了 Hu & Liu 的 aspect-based 情感分析框架作为基础,但增加了信息密度评分层。关键特征不是情感极性(正面/负面),而是信息结构:是否包含使用场景?是否有量化描述?是否提供了因果解释?是否包含可操作建议?这四个维度的组合得分决定了评论的密度等级。对产品团队而言,这意味着他们不再需要人工翻阅数千条评论——系统自动过滤出最有价值的 3%,每条都附带结构化的 insight 标签。这个方法后来也被应用到了客服工单、用户反馈表等场景中。

参考文献

  1. Hu, M. & Liu, B. "Mining and Summarizing Customer Reviews." KDD, 2004.
  2. Pang, B. & Lee, L. "Opinion Mining and Sentiment Analysis." Foundations and Trends in IR, 2008.