信息检索技术论文

发布者:中华七剑 时间:2023-2-2 00:32

信息检索技术论文

无论是身处学校还是步入社会,说到论文,大家肯定都不陌生吧,论文是对某些学术问题进行研究的手段。你知道论文怎样才能写的好吗?以下是小编为大家整理的信息检索技术论文,仅供参考,希望能够帮助到大家。

信息检索技术论文

信息检索技术论文1

[摘要]通过对近年来计算机科学、人工智能、专利文献加工等领域的发展进行总结,从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。机器翻译技术和多边共同分类体系的完善有助于提高计算机检索效率、消除语言障碍,而语义检索、图像检索和文献自动处理技术的发展有望使面向不同层次用户的计算机智能化检索系统得以实现。

[关键词]专利文献,计算机检索,语义检索,图像检索

1、前言

近年来,计算机技术、语言学以及人工智能技术的发展促进了整个信息检索技术领域的发展,专利文献的计算机检索技术正成为情报检索领域研究的热点。下文拟从多语言混合检索、分类检索、语义检索、图像检索以及辅助技术五个方面介绍专利文献计算机检索技术的最新发展。

2、多语言混合检索

专利文献是由各国、各地区专利局或世界知识产权局出版的官方文献,因此一般以各局官方语言出版。虽然大部分专利文献是英语文献,但是仍然存在大量日文、中文、德文、法文及其他语种的文献。出版语言的多样性给专利文献的检索和利用带来了极大的障碍,要实现多语言混合检索,机器翻译是必不可少的技术。目前一些专利局在其上推出了机器翻译系统,例如我国国家知识产权局提供有汉英机器翻译,日本特许厅提供有日英机器翻译,韩国知识产权局提供有韩英机器翻译等,上述网络机器翻译系统对其他国家的用户阅读方便和使用本国专利文献起到了帮助作用。

随着计算机技术的发展,机器翻译的技术也迅速发展,从传统的基于规则的机器翻译扩展到了基于实例或模版的机器翻译、统计机器翻译等。尤其是近年来语言学和人工智能技术的发展,以语义描述或以知识描述为特征的智能机器翻译系统正逐步成为研究的热点。专利文献作为一种特殊的科技文献,由于其具有特定的句法和语言结构,同时例如权利要求书等具有法律公示性文件的作用,这对翻译的准确性提出了更高的要求,已有研究者通过在机器翻译系统内集成多个翻译引擎、对不同特点的内容使用不同引擎翻译的方式来提高翻译质量。

已有的机器翻译系统基本局限于单篇文献的机器翻译,无法实现真正的多语言混合检索。多语言混合检索系统不仅可以允许混合语言的检索式,而且同一个检索式还可以对不同语言的专利文献进行检索,其实现方式主要有如下三种:翻译检索式、翻译文献或者两者相结合的混合式。翻译检索式的工作量小,比较适合于因特网检索,但由于检索式通常缺乏语境,翻译难度较大;翻译文献的方式虽然有利于提高翻译质量,进而有利于文献检索,但存在的主要问题是翻译量太大、翻译时间长。

3、分类检索

分类号一直是专利文献检索的重要手段。目前除了基本涵盖各国专利文献的国际专利分类(IPC)之外,美国专利商标局、日本特许厅和欧洲专利局各自都有自己的分类体系,分别是UC、FI/FT和ECLA。IPC虽然通用,但存在分类标准不统一、分类条目不够完备、文献分类更新不及时等缺陷,导致使用IPC检索的效果欠佳。UC和FI/FT分别只能检索美国和日本的专利文献,ECLA虽然能够检索到多国的文献,但仍然不能有效地检索日本、韩国、中国等国的专利文献。

为改善这种局面,美国、日本和欧洲自20xx年即开始了“三边分类和谐计划”,该计划旨在推进ECLA、UC和FI三个分类体系的融合以增强分类号检索的功能,同时对现有IPC分类体系提出改进建议。依据20xx年召开的第27次三边会议,韩国知识产权局已经加入上述计划,而中国国家知识产权局也以观察国的身份参与这项工作。此外,近年来美国专利商标局、日本特许厅、欧洲专利局、韩国知识产权局和中国国家知识产权局五局积极开展合作,其中一个重要的合作项目是“共同的分类”。该项目的实施将有利于提高分类的一致性,扩展或细化部分技术领域的分类,进而提高检索的效率和质量。

不管是美日欧三方开展的“三边分类和谐计划”,还是五局共同开展的“共同的分类”项目,都必将推进专利文献分类体系的进一步发展,实现真正意义上的“基于检索的分类”,进一步增强分类号在专利文献计算机检索中的作用。

4、语义检索

当前专利文献检索的.主要手段为关键词和分类号检索,而由于一词多义、一义多词,专利文献撰写、加工和翻译质量不一以及关键词的机械匹配等问题,本质上决定了其查全率和查准率受限制。随着计算技术、人工智能、自然语言处理等技术的发展,搜索引擎的智能化有望从根本上提高现有检索系统的检索质量。

搜索引擎的智能化具体表现为语义检索,也称为知识检索或概念检索。语义检索是对检索条件、信息组织及检索结果显示赋予一定语义成分的一种新的检索方式。语义检索的本质在于以语义为对象进行搜索,而不是对字符串进行简单的机械匹配,因此可避免关键词匹配检索中由于词和义不对应所导致的问题。

语义检索过程一般包括对被检索的文档以及输入的检索式进行语义分析和匹配处理。这种语义分析处理依赖于词汇的语义描述技术以及分别用于词义鉴别和词汇过滤的语义识别技术和词汇链算法。可以通过诸如WordNet等语义词典对词汇实现较完备的语义描述,保证人和机器对词汇的理解一致。

最新发展的潜在语义索引通过将文献搜索过程中的向量空间模型和奇异值分解相结合,可以揭示文档中的词间关系,因而适于构建专利文献搜索引擎”…。利用语义进行检索还可以将专利文献中的非技术性信息考虑在内,例如将特定的技术概念和申请人、发明人等信息进行语义联系。此外,语义检索还可以从用户角度出发,考虑用户的检索需求,从而为诸如查新、侵权等不同目的的检索提供相应的结果。

近年来国内一些开发商也纷纷提供具有语义检索功能的专利文献检索系统,例如东方灵盾开发的专利检索系统和Patenticst网站。Patentics网站除了可以实现传统的关键词检索功能,还支持语义检索,仅通过输入检索所针对的专利文献号,即可自动对其进行语义分析、文献检索,并对结果进行相关度排序。当前专利文献检索领域还未广泛应用语义检索,但随着研究的深入,相信未来的搜索引擎不仅能利用语义技术提高检索的效率,还有望能对检索结果进行分析、评价,甚至自动生成检索报告。

5、图像检索

根据对图像检索所使用方法的特征可以分为基于文本的图像检索法(TBIR)和基于内容的图像检索法(cBIR)。专利文献一般都带有大量的附图,包括机械结构或化学结构式附图、电路图、方框图、流程图或曲线图等。与传统的关键词检索和分类号检索相比,CBIR更加直观、快速,而且可以克服因文字表述差异而导致的漏检,因此它正在成为专利文献检索领域的研究热点。专利文献的附图都是黑白二元图像(本文

所称专利是指发明和实用新型专利,不包括外观设计专利),不存在颜色和纹理等特征,因此专利文献的图像检索主要是基于形状和区域的图像特征。

虽然目前还没有成熟的专利文献图像检索系统,但一些研究机构已经开发出若干可专门用于专利文献的图像检索原型系统,例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek专门针对美国专利文献进行图像检索,而PatMedia网站上的试验系统仅针对欧洲专利局的专利文献,这两个图像检索系统都可实现直接输入待检索的图像,系统自动进行相似度匹配,直接提供专利附图,同时还可以进行基于文本的图像检索。

典型的专利图像检索系统包括专利文献处理部分和图像检索部分,如图1所示:

文献处理部分又进一步包括文献预处理和视觉、文本元数据提取和索引两部分。前者是找出文献中的图形和对应的文字描述;后者则是进一步进行图像特征分析和文本分析,分别提取基本的图像特征以及能够表示图形含义的高层语义特征的关键词,由此分别形成索引后的图形特征矢量库、图像库、文本描述关键词库和知识库。在图像检索部分,基于上述提取的元数据,进行图像相似度匹配,同时还可以基于文本进行图像检索。与一般领域的图形检索相比,由于专利文献中每幅图形一般都对应有文字描述,即使不再进行人工标注或自动标注,都能提取到较好的高层语义特征,这对提高专利文献图形检索的准确性非常有帮助。

目前,专利文献图像检索系统仅处于试验阶段,只能对数量非常少的特定专利文献进行检索,且检索结果相关度还不是很高,但由于图像检索具有其他任何检索方式都不具备的优点,相信随着人们对专利文献图像检索技术的进一步研究以及语义检索技术的进一步发展,实现高精度的图像检索必将成为现实。

6、辅助技术

高质量的专利文献是提高检索质量的基础。专利文献分类、标引和摘要改写是专利文献加工的主要内容。传统的专利文献加工方法主要依赖于人工,其成本高且速度受限制,质量不统一。随着人工智能和计算机技术的发展,开始出现对专利文献进行自动分类、自动标引、自动摘要和自动聚类。

专利文献自动分类已经在欧洲、美国、日本得到了广泛的研究和尝试。例如欧洲专利局已经利用自然语言处理的相关技术实现了专利文献的自动初分类;对日本专利文献自动分类研究表明,对于使用K临近算法进行自动分类的情况下,先将专利文献按部分结构化为语义单元可以提高74%的效率。

PATExpert代表了目前较先进的专利文献自动处理技术的发展,通过基于语义网的语义处理技术实现了面向内容的专利文献自动处理,其中的一个主要技术是利用一定的语义表示结构实现专利文献知识层面的表达。该系统可以执行的处理任务包括:专利文献内容和元数据的自动抽取;全文、图像、相关性搜索引擎;专利文献的自动分类和聚类;面向多语言的辅助理解工具;专利价值自动评估等。

国内有一些研究机构开展了大量的基于IPC体系的专利文献自动分类的研究,这些研究大部分集中在统计分类技术。近年来随着人工智能技术的兴起,基于人工智能或语义的专利文献自动分类发展迅速,例如上文提到的Patentics试验系统也开始尝试对专利文献进行自动分类。

中文专利文献的自动处理仍处于研究阶段,虽然国外专利文献自动处理已经积累了许多宝贵经验,但由于中文表述的特殊性,许多技术还待消化和开发,例如汉语词汇之间的分词技术是制约自动标引质量的一个障碍。随着信息处理自动化相关技术的发展,专利文献的自动分类、自动标引、自动聚类和自动摘要正在逐步由半自动走向全自动化,这给搜索引擎的发展带来了极大的便利。同时,利用语义技术实现基于内容的自动处理将是未来的发展主流,也是提高专利文献自动处理质量的主要手段。

7、结语

专利文献计算机检索是一个涉及了多学科的研究领域,其中以语义检索为核心的技术推动了搜索引擎、机器翻译、图像检索等相关技术的发展,而由于专利文献的特殊性,分类体系和文献自动处理技术也在其中占据了重要地位。随着研究的进一步深入,现存的语言障碍和检索效率低下等缺陷在不久的将来必将逐渐被克服,不同层次的用户有望借助于智能化的自动检索系统便利地实现专业化检索。

信息检索技术论文2

摘 要:随着计算机技术的改革和信息爆炸时代的到来,我们每个人都在面对大量的信息选择问题。如何对有用信息进行检索、评价和利用,这是需要研究的问题。主要对计算机信息检索技术的发展及相关问题进行了研究。

关键词:计算机;信息检索;智能化;信息资源

在现代社会中,在世界的许多地方都有信息化的影子。当计算机技术和网络技术被大量应用于信息领域的时候,电子化和数字化文献信息的数量剧增,随之而来的是信息管理方面的问题。信息检索技术在多个领域均有应用,尤其是在教育领域,其应用非常广泛。

1.计算机信息检索技术的发展研究

通过对计算机信息检索系统发展历程进行分析,发现其发展过程可分为3个时期:

①1971年之前的信息检索系统。

在这个时期,信息检索主要采用的是一些传统的批处理检索方式,这种方式数据存储和数据通信能力不高。

②这个时期的标志性事件是1971年之后的联机情报检索系统。这个时期,信息检索的主要特征是可以通过联机对数据库进行管理。

虽然数据库联机检索功能比较完善,但是其数据通信能力很一般。

③这一时期的标志是IT的出现。在IT出现之后,系统一般使用的是分布式的网络化管理。信息资源不仅具有数字表达的形式,还有多媒体的形式,规范化和结构化难度较大,内容特征抽取比较烦琐,并且其对用户界面要求比较高。

计算机信息检索技术的这些特点,使信息处理的模式出现了巨大的变革。

信息结构从结构化到非结构化,系统功能从单纯信息检索到综合信息管理和服务等,这些变革促进了信息检索技术的进一步发展,且能够满足更多用户对信息利用的需要。就目前情况来看,计算机信息检索技术主要发展方向有2个:

①传统信息检索向全文文本、多媒体、多载体、多原理等新型信息检索的发展;②信息资源的网络化和分布化。在第一个发展方向中,信息检索的方式新型化突出,能够实现自动抽词、自动检索和数据挖掘等大量的新功能,能够使管理和组织信息的能力得到提升;在第二个发展方向中,信息资源主要是集中于“广度”上发展,使资源的检索范围更加广阔。

2.计算机信息检索应用中的问题及对策

信息检索,英文译为“InformationRetrieval”。通过信息检索,能够实现信息的存储和组织、存取。信息检索的关键是文本信息的索引和检索。在信息检索的发展历程中,我们了解到其经历了多个发展阶段,发展的趋势是越来越智能化。在科学技术飞速发展的今天,信息检索的对象也越来越多,不仅包括文献和数据等文本信息,还包括图形图像、声音和视频等媒体信息,这些都是信息检索研究的范畴。现在,信息检索实现了从网络化到智能化的发展,信息检索的对象从以前的封闭到现在的开放,从以前的稳定、一致到现在的动态和分布广泛,都是一大进步。当互联网越来越普及时,我们需要面对的信息资源的数量越来越多,如果想要在最短的时间内获得自己所需的信息,就会给计算机信息检索带来巨大的`困难。但随着技术的发展,这绝对是可以实现的。图1所示为智能信息检索形式的框架图。

2.1 检索中存在的问题

2.1.1 语言的问题

目前,在很多计算机的信息检索过程中,由于使用的是自然语言标引和检索,会出现查询不准确的现象。尤其是在互联网信息时代,检索需求逐渐难以满足人们日益增长的信息检索需求。

2.1.2内容的问题

当前,网络信息资源变得越来越丰富,检索的内容是否准确,能不能展现查询的网络信息资源,这是一个问题。我们在对信息检索的时候,检索内容不符合自己要求的情况很普遍。所以,为了增加检索量,同时保证查询方式的单一性,就需要做很多工作。

2.1.3对象的问题

在信息检索的过程中,不同人的信息检索需求是有差异的。怎么对这些信息检索需求进行分类,从而使用户的使用个性化凸显,并且还能够确保准确性,这些都是需要改进的对象。

2.2检索中存在问题的相应对策

2.2.1语言智能化

所谓的“语言智能化”,也就是当我们通过自然语言向信息检索系统输入关键词之后,可检索处理和歧义分析,在知识层面或者说概念层面上辅助查询,通过系统给我们的一些智能化提示,帮助我们获得效果最好的检索结果。

2.2.2内容具体化

在信息检索系统中,需要使内容分析的能力得到提升。

在这个过程中,应当对与检索内容没有关系的信息进行筛除,这样不仅可以使标题和全文成为检索点,还可以通过声音、图像等进行检索。

2.2.3技术智能化

现在,我国已经出现了一些智能化的检索技术,不仅包括自动标引、自动文摘技术,还包括自动跟踪、自动漫游等智能化技术。这些检索技术正在逐渐得以改善和优化。近年来,“智能浏览器”和“知识共享智能体”等概念已被提了出来。

3结束语

目前,信息检索技术的发展方向是多功能化和智能化。当信息检索技术在飞速发展时,传统的信息获取方式发生了巨大的改变。作为21世纪的人们,只有掌握现代信息技术,掌握信息检索技术,才能跟上社会发展的步伐。

Copyright © 2022-2024 领地网 www.lingd.cn 版权所有 蜀ICP备09043158号-4

声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。