`
huangfoxAgain
  • 浏览: 35669 次
  • 性别: Icon_minigender_1
  • 来自: 常州
社区版块
存档分类
最新评论

基于ipc分类号生成样本训练集指导文本分类【一】

阅读更多

基于ipc分类号生成样本训练集指导文本分类

 

1.文本分类的简要过程

在实际分类中,首先将训练文本表示成某种形式的元素(词)的向量,通过特征提取,用权重表示特征,这样就可以对元素-权重表示的文档向量进行训练,获得向量模型。

分类时,待分类的文档表示成元素-权重文档向量,并于向量模型进行比较,最终判断其类别。

 

2.第一个问题:如何找到合理的文档训练集?

由于在专利检索方面有一定的经验,因此可以依据ipc分类号,提取一批规范的文档集,作为文档训练集。

 

3.ipc分类号介绍

 国际专利分类系统的体系结构如下: 国际专利分类系统按照技术主题设立类目,把整个技术领域分为5个不同等级:部 、 大类、 小类、大组、 小组。

  IPC分为A-H八个部,其中  
A部:生活必须(农、轻、医);                 
B部:作业、运输;                        
C部:化学、冶金;                      
D部:纺织、造纸;                      
E部:固定建筑物;                      
F部:机械工程、照明、采暖、武器、爆破;
G部:物理;                     
H部:电技术  

  B ----- 部,表示作业、运输。                      

  B64 ---- 大类,表示飞行器、航空、宇宙飞船。大类类号用二位数标记。

  B64C---- 小类,表示飞行。小类类号用大写字母标记。 

  B64C25/00- 大组,表示起落装置。大组类号用1-3位数加/00标记。

  B64C25/02- 小组,标记是将大组/00中的00改为其他数字.小组内的等级是依次降低的,但从分类号上看不出来,只能根据小类前的圆点数目加以判断。如:

         25/02 . 起落架;                            

         25/08 .. 非固定的;

         25/10 ...可快放的,可折叠的或其他的;                  

         25/18 ....操作机构;                 

         25/26 ..... 操纵或锁定系统;                 

         25/30 ...... 应急动作的

 

因此该实验的目的就是根据ipc分类号找出一组文档训练集,为后期开发文本分类做好准备。

 

 

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics