我们的系统会分析文本数据以计算五项关键评分。这些指标不仅帮助您了解讨论的内容,还能帮您了解讨论的强度、位置和情感。
本文将涵盖:
理解指标评分
普及度评分
"该实体的普及程度如何?"
该评分衡量实体在整个数据集中的覆盖范围。它告诉您特定实体出现在总文档中的百分比。
计算方法:我们取包含该实体的文档数,然后除以文档总数。
(包含实体的结果 ÷ 结果总数)× 100
阅读方法:
-
0%:实体完全没有被提及。
-
100%:每篇文档都提到该实体。
-
高评分:表明该实体是整个数据集相关的普遍主题。
平均频率评分
"它的提及频率有多高?"
该评分衡量讨论的强度。它计算的是实体在每篇文档中平均出现的次数。
计算方法: 实体被提及的总次数 ÷ 文档总数
注意:这个平均值包括出现次数为零的文档。如果一个实体被提及100次,但只出现在100篇文档中的一篇,那么平均频率会很低(1.0)。
阅读方法:
-
高评分:实体被反复提及,讨论的强度很高。
-
低评分:实体很少被提及。
显著度评分
"该实体是标题还是附注?"
该评分确定实体在文本中首次出现的位置。我们假设最重要的信息通常会先行写出。
计算方法:我们确定实体首次提及的位置。
-
100:实体出现在开头(第一个词/句子)。
-
50:实体出现在中间(或在没有特定位置数据的情况下为默认值)。
-
0:实体出现在结尾。
阅读方法:高显著度评分表明,实体是主要主题或“标题”问题,而不是隐藏在文本底部的细节。
情感评分
"情感基调如何?"
该评分量化了与文本相关的正面或负面情感,标准化为0-100的范围。
计算方法:我们采用标准的情感原始评分并进行转换。
阅读方法:
-
0-40 (负面):批评、生气或不利的语调。
-
40-60 (中性):事实、客观或平衡的语调。(50是默认基准地)
-
60-100 (正面):赞扬、兴奋或有利的语调。
可见度评分
"主评分"
可见度是一个综合指标。它将普及度(覆盖范围)、频率(强度)和显著度(位置)结合成一个单一的数字,以展示整体影响力。
计算方法:我们对输入进行标准化,并应用特定的权重来平衡覆盖范围、频率和位置的重要性。
(普及度 + 频率 + 显著度的加权和)
阅读方法:
-
高可见度:实体“声音”很大。它出现在许多文档中,频繁出现,并且位于文本的早期。
-
低可见度:实体是小众的或背景噪音。它很少出现,或者只出现在文本的深处。
| 指标 | 范围 | 描述 |
| 普及度 | 0–100 | 包含该主题的文档百分比。 |
| 平均频率 | 0+ | 每个文档的平均提及次数。 |
| 显著度 | 0–100 | 文本中的位置(开头=100,结尾=0)。 |
| 情感 | 0–100 | 0=负面,50=中性,100=正面。 |
| 可见度 | 0–100 | 普及度、频率和显著度的加权组合。 |

