利用语义聚类改进标签云

低效的Tagcloud中,yuancheng介绍了在标签云中寻找单词的低效率。事实上在所描述实验的框架下,这应该是容易理解的:标签云实际上是一个折行的有视觉权重的按照字母排列顺序的列表,而在视觉搜索任务中寻找某个单词是随机的,因此标签云实际上降低了视觉搜索较小字号的单词的效率。

众所周知,标签系统的一个弊病是标签之间缺乏一致性。我们可以定义三种不同的标签一致性:

  • 个人一致性:某一特定用户在某一系统中使用一致的标签来标注同一或相似的内容。
  • 协作一致性:同一个系统中,大多数用户将对同一或相近内容标注一致的标签。
  • 跨平台一致性:在不同的系统中保持对同一或者相似内容的标签一致性,如在youtube上和vimeo上对同一视频标签的一致性

显然,个人一致性是标签系统一致性的基础。思考个人不一致性的来源,一个主要原因是用户不能很方便地找到自己想要的标签。例如在下图中,有类似于website, websites这样的单复数不一致,internet_safety和internetsafety这样的拼写不一致,blog, blogs, blogging这样的词型不一致。

那么,一个简单的思路就是,让用户能更加容易找到他们想使用的标签。研究显示,在一个标签系统中,每个标签出现的次数占全部标签的百分比在长期是趋向稳定的冪律分布的。见下图。

Source: Golder et al, 2005

使用标签云,让用户经常使用的标签尺寸更大,并且让用户输入的时候可以直接在标签云中点选所需要的标签,这解决了频繁出现标签的一致性问题。下面,我们介绍一种利用语义对标签进行聚类,提高不频繁标签一致性的方法。

Montero et al, 2006等人最早提出利用语义对标签进行聚类。他们所使用的是K-mean算法,将标签根据同时出现的次数进行聚类,如图所示:

Source: Montero et al, 2006

显然,这样做的好处是,用户即使第一时间不能找到所需的标签,也可以很方便地定位到所在的类别,然后再进行细分寻找。这一策略我们认为能够提高标签的一致性。我在本科毕业设计中设计了实验讨论这一问题。以下是实验中生成的标签云示意:

很显然,当用户寻找“跳伞”时,他可以先看到明显的“运动”,然后在运动所在分类中找到“跳伞”。这一截图显示,K-mean算法有效地将相关的标签在标签云中聚集在了一起。实验结果显示,对标签的语义聚类显著地提高了用户的个人一致性(p=0.014)。当然,这只是初步的结论,有待于进一步的实验详细探讨这一问题。

参考文献:
Golder, S. and Huberman, B.A. (2006). Usage Patterns of Collaborative Tagging Systems. Journal of Information Science, 32(2): 198-208.

Halpin, H et al. (2007). The complex dynamics of collaborative tagging, WWW 2007, May 8-12, 2007. 211-220

Hassan-Montero, Y. & Herrero-Solana, V. (2006). Improving tag-clouds as visual information retrieval interfaces. In Proceedings of the International Conference on Multidisciplinary Information Sciences & Technologies.

2 Responses to “利用语义聚类改进标签云”


Leave a Reply