计算机专业-一维数据重复子串的快速搜索算法研究与实现.doc
《计算机专业-一维数据重复子串的快速搜索算法研究与实现.doc》由会员分享,可在线阅读,更多相关《计算机专业-一维数据重复子串的快速搜索算法研究与实现.doc(32页珍藏版)》请在沃文网上搜索。
1、 贵州大学本科毕业论文(设计) 第 29 页目录摘要IIAbstractIII第一章 绪论11.1 研究背景及意义11.2 音频篡改鉴定的发展历史11.3 研究现状2第二章 数字音频复制粘贴鉴定背景知识32.1 音频信号预处理32.1.1 音频信号32.1.2 音频信号数字化32.1.3 量化位数42.2 数字音频信号复制粘贴现象52.3 工具介绍62.3.1 VC+6.0介绍62.3.2 MFC类库介绍6第三章 算法原理83.1 金字塔模型83.2 金字塔数据结构93.3 金字塔创建103.4 金字塔的构建顺序113.5 金字塔的比较12第四章 算法实现154.1 程序流程154.2 金字塔
2、构建实现164.3 金字塔比较1实现174.4 金字塔比较2实现184.5 图形界面实现204.5.1 数据生成204.5.2 金字塔生成和比较22第五章 算法结果与分析255.1 算法的意义255.2 算法比较25第六章 结论与展望27参考文献28致 谢29一维数据重复子串的快速搜索算法研究与实现摘要一维数据重复子串的快速搜索算法研究与实现是指:在一维数据中可能存在有意无意的篡改现象,其中复制粘贴手段最为常见,需要快速简单地检索出重复子串。实际意义在于对数字音频数据的鉴定,主要方法用到金字塔算法,原理是构建金字塔后,塔顶元素具有代表下层元素的特点,从塔顶开始比较要比直接比较更节约时间,对庞大
3、音频数据的鉴定具有重要意义。本次研究内容在国内外研究还很少,很难找到相关的文献和书籍,我认为这具有很大研究意义。论文详细介绍了金字塔的构建原理,金字塔比较的详细过程,并进行了金字塔比较方法和原始比较方法的对比,得出的结论是金字塔比较方法能准确的查找重复子串,在数据极其庞大的时侯要比直接比较方法要快,实用性要好。关键字:金字塔,音频数据鉴定,复制粘贴One dimensional data fast substring search algorithm research and realizationAbstractOne dimensional data repetition substrin
4、g fast search algorithm research and realization means: in the one-dimensional data may exist naturally or half unconsciously tampering with the phenomenon, which means the most common copy and paste, need to quickly and easily retrieve repetition substring.Practical significance lies in the digital
5、 audio data identification, the main method used in Pyramid algorithm, principle is the construction of Pyramid, the lower elements representative characteristics of elements, from the top of the tower started to save time more than a direct comparison, the huge audio data identification is of great
6、 significance.The research contents in the domestic and foreign research is few, difficult to find relevant documents and books, I think this has great research significance.This paper introduces the principle of construction of Pyramid Pyramid, a detailed comparison of the process, and the Pyramid
7、the comparison method and the original comparison method contrast, concluded Pyramid comparative method can accurately find the repeated substrings, in data extremely large time than the direct comparison method to fast, practical.Key Word: pyramid,Digital audio appraisal,Copy paste第一章 绪论1.1 研究背景及意义
8、 随着信息时代的来临,越来越多的数字电子设备进入人们的日常生活,并改变着人们的生活习惯,音频领域也随之面临着革命性的变革。在专业领域,从早期的模拟开盘卡座及黑胶唱片到目前的CD,MD,从传统的模拟调音台到现在的数字音频工作站;在娱乐领域,mp3、mp4逐渐取代了模拟的walkman和录音机,DVD取代了传统的录像机种种迹象表明音频技术的数字化时代已经来临。在音频技术领域,人们可以越来越多地拾取音频信号,并利用音频编辑软件对其进行编辑和修改,这种有意或无意的篡改行为对音频数据本身的安全性产生了巨大的威胁。列如一些具有历史意义的录音、国家要求的重要录音、公安机关的重要取证录音.随着数字信息应用用于
9、司法取证的呼声越来越高,数字音频篡改技术逐渐成为国内外学术研究的热点。所以对数字音频数据的研究具有重要意义。计算机数据的存储是以0、1的形式存取的,那么数字音频就是首先将音频文件转化,接着再将这些电平信号转化成二进制数据保存,播放的时候就把这些数据转换为模拟的电平信号再送到喇叭播出。数据形式保存占用空间小、便于携带和传送,但在传递过程中容易会被恶意篡改,而复制粘贴是最简单也是最常见的音频篡改手段,复制粘贴合成后的音频一般靠听觉是不能分辨的,同一个人在同样环境下说同一个字似乎一样的,但实质上两个字的时域和频域都有所不同,加之目前国内外对这种现象的研究还比较少、正处于萌发阶段,因此对这种篡改方式的
10、检测有一定的难度。本次对一维数据重复子串的快速搜索算法的研究,实际意义在于对数字音频信息的鉴定,找出被篡改的地方并还原到自然音频。1.2 音频篡改鉴定的发展历史人们能够记录音频信号的技术已经存在一百多年,但将音频信号作为有效的司法取证是在近40年开始。1960年早期,美国联邦调查局就开始对音频录音内容进行了认证和改善语音清晰度的研究。1974年,“水门事件”的发生,得到很深刻教训,使得音频鉴定受到人们的广泛关注,并逐步发展成为司法科学的一个重要分支。1971年2月,为了防治白宫秘密事件被泄露,尼克松让助手在办公室安装了一套声控录音设备,正是这盘录音带成为最后揭发“水门丑闻”真相的有利证据。因为
11、检查发现这份录音带中存在长达18.5分钟的空白,甚至更多次的修改,这说明有人了为了掩盖事实真相,故意篡改部分录音信息。早期的音频鉴定主要是针对模拟音频信号的鉴定,截止现在已经取得了很好的效果,随着数字时代的到来,数字音频鉴定已经迫在眉睫。1.3 研究现状 音频信号篡改鉴定是二十世纪九十年代后兴起的一个新领域,国外已取得了一些研究成果,国内研究还比较少。在美国的Dartmouth大学以Farid教授为核心的研究团队,根据对篡改音频会引入非自然的高阶相关的性质,取得了较好的检测结果;罗马尼亚的取证工作者Grigoras,提出了通过分析电网频率的变化,实现篡改音频的鉴定;德国马哥德堡大学,Dittm
12、ann教授的研究团队提出了用于确定说话人所处环境的检测方法。从目前已有的文章来看,由于数字音频篡改鉴定的研究起步较晚,尤其是在国内的研究成果还很少,主要研究团体包括:上海交通大学,解放军信息工程大学,哈尔滨工业大学,中山大学以及大连理工大学等。 随着录音资料在司法取证中越来越重要,特别是数字音频方面,世界各国的法律机构相继开展数字音频鉴定的研究,并针对音频资料鉴定工作,逐步制定了法律程序和标准。第二章 数字音频复制粘贴鉴定背景知识2.1 音频信号预处理2.1.1 音频信号图2.1 音频信号如上图所示,音频信号是(Audio)带有语音、音乐和音效的有规律的声波频率、幅度变化信息载体。根据声波的特
13、征,音频信息可以分类为规则音频和不规则声音。其中规则音频又可以分为语音、音乐和音效。规则音频是一种连续变化的模拟信号,具有一定的韵律,可用一条连续的曲线来表示,称为声波。声音的三个要素是音调、响度和音色。声波或正弦波有三个重要参数:频率(符号为:)、幅度(符号为:A)和相位(符号为:),它们共同决定了音频信号的特征。2.1.2 音频信号数字化音频信号数字化是针对以前的模拟信号,即连续信号转变为离散的数字信号,以适应现代信息化社会的需求,只有这样才方便使用计算机来处理。由此我们需要对音频信号进行采样,是指将时间上连续的语音信号进行离散化,获取一个样本序列,于是,需要进行采样和量化。现在我们使用的
14、CD就采用了数字技术,不过它只是简单地把模拟信号加以数字化。为了得到更好效果的数字化信号,首先要对模拟信号进行采样。根据Ny quest采样定律,一般来说采样频率至少是被采样信号最高频率分量的两倍,这是因为采样后可还原的最高信号频率只有采样频率的一半。所以对于高质量的音频信号,其频率范围一般是在20Hz-40kHz之间,所以其采样频率必须在40kHz以上。在CD中采用了44.1kHz的采样频率。在对模拟信号采样以后,还必须对其幅度上加以分层。在CD中,其分层以后的幅度信号用16比特的二进制信号来表示,也就是把模拟的音频信号在幅度上分为65,536层。这样,它的动态范围就可以达到96分贝=20L
15、og65536(6分贝/比特)。这种直接模数(A/D)变换的方法也称为PCM编码。直接数字化的最大缺点是比特率非常高。达到44.1x16=705.6kbps,或即88.2kBbps。比特率高就意味着要求的存储容量很大。要记录1分钟的音乐,就需要5.292MB的存储容量。对于两路立体声,就需要10.584MB。而要记录几十分钟的音乐就需要几百兆的存储容量。 模拟信号转换成数字信号称为模/数转换,转换过程主要包括:采样(在时间轴上对信号数字化); 量化(在幅度轴上对信号数字化);编码(按一定格式记录采样和量化后的数字数据)。脉冲编码调制PCM(Pulse Code Modulation)是一种模数
16、转换的最基本编码方法,CD-DA就是采用的这种编码方式。如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半,或者说只要采样频率高于输入信号最高频率的两倍,就能从采样信号系列重构原始信号。根据该采样理论可知:如果采样频率为40KHz,则记录的最高音频只有20KHz,这样的音质与原始声基本没有差别,正是我们所说的超级高保真音质(Super High Fidelity-HiFi)。 2.1.3 量化位数量化位是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。由于计算机按字节运算,一般的量化位数为8位和16位。量化位越高,信号的动态范围越大,数字音频信号
17、就越精确,但所需要的存贮空间也越大。声道数又有单声道和双声道之分。双声道又称为立体声,在硬件中要占两条线路,音质、音色好,但立体声数字化后所占空间比单声道多一倍。模/数转换图形比较如下图: 图2.2 模拟音频信号 图2.3 数字音频信号2.2 数字音频信号复制粘贴现象21世纪已是信息化的社会,以信息技术为主要标志的高新技术在整个经济中的比重不断增大,多媒体技术及产品促进了通信、智能、娱乐和计算机的融合、以及在国家执政和国防科技中所占比重越来越大,成为当今世界计算机产业发展的新领域,而多媒体技术最重要的技术之一:音频信息处理技术,将音频信息数字化存入存储器上,方便了我们保存、远距离传送和复制粘贴
18、,与此同时也会出现有意无意的篡改现象。在复制粘贴中最常见的是复制音频中某些关键字到同段音频中的其他位置,或是覆盖其他关键字以改变原始音频表达的意思。如图所示:图2.4 (a)原始语音 图2.5(b)复制粘贴篡改后的语音 在图中(a)语音表示:“你做的对,他做的不对”,(b)语音表示:“你做的不对,他做的不对”。(b)是将(a)中的“不”字复制到“对”字之前而得到的篡改语音。 如此看来音频数据的篡改可能会影响到原始语音的意思,如果是在军事通知方面的语音被篡改可能会照成两国进入紧急状态,司法取证中可能会让罪犯逍遥法外。例如在一段军事讲话中讲到:“我国坚持长期与美国友好合作”而在讲话中又讲到“发展中
19、国家现在还不如与发达国家经济发达”。在把讲话下达的过程中有人恶意把后面的“不”复制粘贴到前面某段话中则有:“我国坚持长期不与美国友好合作”,然后传遍全球,可能会引起两国友好发展甚至还会引发战争。这个“不”从同一人在相同环境下发出的,这种完全的复制粘贴,在语音中凭听觉是不可能辨别的,实际情况是没有两个字的发音数据完全一样的,这就是本次课题需要解决的问题,快速搜索一维数据中的重复子串。2.3 工具介绍 本次论文中设计的算法使用VC+6.0开发平台,图形界面使用MFC类库,本章节就对此进行简单介绍。2.3.1 VC+6.0介绍 VC+6.0 是一套完整的开发工具,用于生成 ASP.NET Web 应
20、用程序、桌面应用程序和移动应用程序。 Visual Basic、Visual C# 和 Visual C+ 都使用相同的集成开发环境 (IDE),这样就能够进行工具共享,并能够轻松地创建混合语言解决方案。 另外,这些语言使用 .NET Framework 的功能,它提供了可简化 ASP Web 应用程序和 XML Web services 开发的关键技术。2.3.2 MFC类库介绍MFC,微软基础类(Microsoft Foundation Classes),实际上是微软提供,用于在C+环境下编写应用程序的一个框架和引擎,VC+是Win DOS下开发人员使用的专业C+ SDK(SDK,Stan
21、dard Soft Ware Develop Kit,专业软件开发平台),MFC就是挂在它之上的一个辅助软件开发包,MFC作为与VC+血肉相连的部分。MFC 应用程序的总体结构通常由开发人员从MFC类派生的几个类和一个CWinApp类对象(应用程序对象)组成。MFC 提供了MFC App Wizard 自动生成框架。Windows 应用程序中,MFC 的主包含文件为Afxwin.h。此外MFC的部分类为MFC/ATL 通用,可以在Win32 应用程序中单独包含并使用这些类。我们主要是用MFC来关联一个窗口的动作,用来进行界面开发。第三章 算法原理本论文是对一维数据重复字串搜索法的研究,采用金字
22、塔算法来实现快速搜索,下面具体介绍设计内容:由于音频数据数字化后数据都比较庞大,每个声音样本的位数也很大,结合实际情况,数字音频数据要连续出现一段重复现象才说明音频是重复的。所以我们在比较时先要选定长度范围,在数据比较小时就可以先确定比较长度,再把所有该长度的数据进行一一比较,这只适用数据较小时的比较。金字塔算法考虑的是数据非常庞大的情况,金字塔算法中也要先确定金字塔维数,然后按一定的规律构建金字塔,顶层数据代表下层数据性质,相当于把庞大数据的数据进行优化,可以只比较顶层数据,如果相同再往下比较,这样能减少比较数据来节约比较时间。本章对该算法原理进行了详细介绍。3.1 金字塔模型 我们需要构建
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
20 积分
下载 | 加入VIP,下载更划算! |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机专业 数据 重复 快速 搜索 算法 研究 实现