先从一个具体的问题开始思考:如何给电子书分类?(这个问题可以推广到如何给信息分类。)
传统的方法是使用自上而下的目录分类法(Taxonomy)。在中国是中图分类法(第四版),在美国是国会图书馆分类法。但是,这种分类过于复杂(所有细目厚达几千页),导致实施起来成本很高。而且,它不太符合电子书的实际,一是分得太细,一本书往往在第四层或第五层的子目录;二是分得不均衡,中图分类法下A类是"马克思主义、列宁主义、毛泽东思想、邓小平理论",I类是"文学",显而易见,对于电子书库来说,将A类单独分为一类非常浪费,而I类则至少可以分列成"汉语文学"和"外语文学"两大类。
此外,目录分类法还有一个先天不足,就是有时候一本书到底分在哪一个类很不明确。比如,《18世纪英国诗歌选(中英对照)》到底应该是"语言"类书籍,还是"文学"类书籍?一个解决办法是同时分在这两类,但是这会造成巨大的冗余工作量。
总之,目录分类法对于巨量信息来说,不是理想的分类方法。但是,它的直观和方便,却是其他分类法难以比拟的。
随着互联网的发展,一种新的分类方法出现了,那就是公众分类法(Folksonomy)。典型的代表网站就是Del.icio.us。
所谓"公众分类法",就是由公众来为信息贴加标签(tagging),被使用最多的标签就最能说明这条信息的特点。
使用标签分类,非常的便捷,而且易于组合,但是也存在一些问题:
(1)不同的用户对相同的标签,往往有不同的理解,比如在"工具"标签下,可能会发现彼此完全没有关系的内容。
(2)同义词问题。用户可能使用同义词作为标签,比如"tv/television","Holland/Netherlands/Dutch","超级女生/超女"。英语中,还存在复数问题。
(3)词的多义性问题。比如"china"这个标签,到底指中国,还是指瓷器。
(4)用户的标签五花八门,可能会产生大量"噪音",加重系统负担,降低分类的准确性。
所以,最好的解决方法应该是,自上而下的目录分类法与标签式的公众分类法相结合,然后对能够用作标签的词汇进行控制(controlled vocabulary),不能什么词都用来当标签。
当然,这只是理想中的情况,技术上的实现似乎难度很大。
(注:此文用来为我整理思路,留待以后修改和补充。)