来自 澳门威尼斯人注册网站 2019-12-04 16:28 的文章
当前位置: 澳门威尼斯人平台 > 澳门威尼斯人注册网站 > 正文

SQL Server 2012还原一直卡在ASYNC_IO_COMPLETION浅析

在SQL Server 2012(11.0.7001.0)下面在还原一个数据库(备份文件40多G大小,实际数据库大小300G),在还原过程中,出现一直等待ASYNC_IO_COMPLETION,如下测试截图所示,已经等待了72分钟了,但是还原比例依然为0%

SQL Server on Linux 理由浅析

 

今天的爆炸性新闻《SQL Server on Linux》基本上在各大科技媒体上刷屏了

大家看到这个新闻都觉得非常震精,而美股,今天微软开盘上涨1.5%,资本市场怎么看微软也非常值得关注。

微软真正要拥抱开源,拥抱Linux了吗?

本人觉得:是的,但是微软做出SQL Server on Linux这个决定也是有章可循的

下面有两篇网上的文章
Windows时代完结:只占微软营收10% 越来越不重要》 文章来源:
微软将SQL Server带到Linux》 文章来源:

 

根据上面的文章,总结了三个原因

理由一
第一篇文章中有说道:云计算机会比 Windows 还大,Windows占微软的营收越来越少,那么自然微软也没有必要让SQL Server捆绑Windows,这是让SQL Server跨平台的理由之一

 

理由二
第二篇文章有说道:根据研究集团美国高德纳公Gartner的数据,2011年到2014年间,微软超越了IBM,在年价值320亿美元的数据库市场占据了第二把交椅,但它的市场份额只有21%,是甲骨文的一半,甲骨文拥有MySQL和Oracle两个主流数据库。

最流行的数据库软件现在都支持Linux,如MySQL、Oracle、PostgreSQL和MS SQL等等,MSSQL被普遍认为门槛最低。

现在服务器版操作系统市场份额基本是Linux稳占第一把交椅,微软要让自家的数据库市场份额扩大来挤占其他数据库的份额,必然要做出SQL Server on Linux的决定,这是理由二

 

理由三

还记得去年的文章吗,《进击的Microsoft—Gartner魔力象限Leader》

图片 1

图片 2

SQL Server在操作数据库管理系统(DBMS)的魔力四象限的leader位置,在db-engines网站,SQL Server也是常年排名前三,那么SQL Server要保持leader的位置,保持竞争力和地位,推出SQL Server on Linux也是理所当然的

 

微软做出SQL Server on Linux这个决定意味着未来把整个微软技术stack运行在Linux上已经成为可能。

 

本人在去年参加微软总部MVP峰会的时候 ,微软的相关负责人就跟在场参会者说对SQL Server on Linux暂时还没有计划,想不到时隔3个月就收到SQL Server on Linux的消息,实在喜出望外。

 

最后,SQL Server on Linux会对那些厂商产生影响呢?走起君觉得对于开源数据库的影响可能会稍小一点,但是对于其他商业数据库产生的冲击可能比较大,例如对Oracle的冲击,因为即使SQL Server on Linux 跟Oracle一样也不一定Open Source

 

好了,我们期待2017年年中 SQL Server on Linux的来临,也希望SQL Server会有更好的发展前景

 

以上为自己的愚见,希望各位读者多多发表自己的意见

 

PS

1、微软发布Linux版SQL Server 缩写为  SQL Server on Linux
2、db-engines是一个数据库受欢迎程度的每月统计网站:
3、美国高德纳公Gartner是一家很出名的公司,他总是不停地推出IT行业的各种报告以及著名的的Gartner魔力象限

 

如有不对的地方,欢迎大家拍砖o(∩_∩)o 

本文版权归作者所有,未经作者同意不得转载。

什么是数据挖掘?

 

数据挖掘是商务智能应用中较高层次的一项技术,而商务智能中还包括数据仓库、ETL、联机分析、商业报表等多项技术。数据挖掘在商务智能应用中提供 的是一种自动化或半自动化的数据分析手段,利用数据挖掘用户将可以更加方便地发现数据的模式(其实就是用户关心的业务模式),用户还可以利用这些模式对某 些符合特征的数据作出预测。

SELECT  r.session_id ,

        r.command ,

        r.start_time,

        r.status,

        r.wait_type,

        CONVERT(NUMERIC(6, 2), r.percent_complete)   AS [Percent Complete(%)] ,

        CONVERT(VARCHAR(20), DATEADD(ms, r.estimated_completion_time,

                                     GETDATE()), 20) AS [ETA Completion Time] ,

        CONVERT(NUMERIC(10, 2), r.total_elapsed_time / 1000.0 / 60.0) AS [Elapsed Min] ,

        CONVERT(NUMERIC(10, 2), r.estimated_completion_time / 1000.0 / 60.0) AS [ETA Min] ,

        CONVERT(NUMERIC(10, 2), r.estimated_completion_time / 1000.0 / 60.0

        / 60.0) AS [ETA Hours] ,

        CONVERT(VARCHAR(1000), ( SELECT SUBSTRING(text,

                                                  r.statement_start_offset / 2,

                                                  CASE WHEN r.statement_end_offset = -1

                                                       THEN 1000

                                                       ELSE ( r.statement_end_offset

                                                              - r.statement_start_offset )

                                                            / 2

                                                  END)

                                 FROM   sys.dm_exec_sql_text(sql_handle)

                               )) AS CommandText

FROM    sys.dm_exec_requests r

WHERE   command IN ( 'RESTORE DATABASE', 'BACKUP DATABASE','RESTORE LOG' );

那么数据挖掘究竟是怎么做到上面这些貌似神奇的事情的呢?现在主流的数据挖掘技术有两种,其中之一来源于我们每一个人可能都学习过的一门学科——统 计学,例如聚类、关联规则、时间序列等,而另外一种则来源于我们每一个人都听说过的一门学科——机器学习(俗称人工智能),例如神经元网络、遗传算法等。

 

数据挖掘能干什么?

 

分类 分类可以把大量数据(在数据挖掘中也称为事例CASE)分成多个类别,而分类的依据就是这些事例中的属性。
聚类 分类有一个同胞兄弟就是聚类,聚类相对分类更加自动,聚类也将大量实例分成多个类别,不过这次是根据属性值的相 似程度自动汇聚成不同的类别。通常把分类成为有监督的算法,而聚类则被称为无监督的算法,主要原因就是分类在执行前就已经有了明确的类别,而聚类在分析前 还不知道有多少分类,而是通过不断的迭代使得各分类之间的边界更加清晰,然后再分析这些分类之间的差别,因此聚类也成为无监督的算法。
关联 关联是找到事例中出现频率较高的组合规则。
序列 提到关联,另外一个同胞兄弟就是序列。序列也是发现组合规律的,不过关联中所提到的规律不涉及到先后次序,而序列则是有先后次序的。
回归 对连续的结果值(不依靠人为分段Discretize)进行预测的算法归为回归。

 

SQL Server 2008 中的数据挖掘算法

图片 3

1.决策树算法

 

决策树,又称判定树,是一种类似二叉树或多叉树的树结构。决策树是用样本的属性作为结点,用属性的取值作为分支,也就是类似流程图的过程,其中每个 内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。它对大量样本的属性进行分析和归纳。根结点是所有样本中信息 量最大的属性,中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性,决策树的叶结点是样本的类别值。

当然,这里是实验,如果还要继续等待的话,相信这个时间会更长。这个是比较让人奇怪的现象。后面查了一下这个跟即时文件初始化(Instant File Initialization (IFI))有关。关于这个概念,可以参考官方文档数据库文件初始化 ,摘抄部分内容如下所示:

从树的根结点出发,将测试条件用于检验记录,根据测试结果选择适当的分支,沿着该分支或者达到另一个内部结点,使用新的测试条件或者达到一个叶结 点,叶结点的类称号就被赋值给该检验记录。决策树的每个分支要么是一个新的决策节点,要么是树的结尾,称为叶子。在沿着决策树从上到下遍历的过程中,在每 个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程。决策树算法能从一 个或多个的预测变量中,针对类别因变量,预测出个例的趋势变化关系。

 

在SQL Server 2008中,我们可以通过挖掘模型查看器来查看决策树模型。如图1所示。

 

图片 4

 

在图1中,我们可以看到决策树显示由一系列拆分组成,最重要的拆分由算法确定,位于“全部”节点中查看器的左侧。其他拆分出现在右侧。依赖关系网络显示了模型中的输入属性和可预测属性之间的依赖关系。并能通过滑块来筛选依赖关系强度。

数据库文件初始化

2.聚类分析算法

 

聚类分析算法就是衡量个体间的相似度,是依据个体的数据点在几何空间的距离来判断的,距离越近,就越相似,就越容易归为一类。在最初定义分类后,算 法将通过计算确定分类表示点分组情况的适合程度,然后尝试重新定义这些分组以创建可以更好地表示数据的分类。该算法将循环执行此过程,直到它不能再通过重 新定义分类来改进结果为止。简单得说,聚类就是将数据对象的集合分组成为由类似的对象组成的多个类的过程。聚类用在商务方面的客户分析中,可以从客户库中 发现不同的客户群,并分析不同客户群的行为模式。

初始化数据和日志文件以覆盖之前删除的文件遗留在磁盘上的任何现有数据。 执行以下其中一项操作时,应首先通过零填充(用零填充)数据和日志文件来初始化这些文件:

在SQL Server 2008中,我们可以通过挖掘模型查看器来查看聚类分析模型。如图2所示。

 

图片 5

·         创建数据库。

在图2中,分类关系图表现个类间关联性的强弱。分类剖面图了解因变量与自变量的关联性强弱程度。分类特征主要呈现每一类的特性。分类对比主要呈现出两类间特性的比较。

·         向现有数据库添加数据或日志文件。

3.Naive Bayes 算法

·         增大现有文件的大小(包括自动增长操作)。

Naive Bayes 算法是 Microsoft SQL Server Analysis Services 提供的一种分类算法,用于预测性建模。Naive Bayes算法使用贝叶斯定理,假定一个属性值对给定类的影响独立于其他属性的值。与其他算法相比,该算法所需的运算量小,因而能够快速生成挖掘模型,以 发现输入列和可预测列之间的关系。可以使用该算法进行初始数据探测,在用于大型数据库时,该算法也表现出了高准确率与高速度,能与决策树和神经网络相媲 美。

·         还原数据库或文件组。

算法采用监督式的学习方式,在分类之前,需要事先知道分类的类型。通过对训练样本的学习,来有效得进行分类。就是通过训练样本中的属性关系,产生训练样本的中心概念,用这些已经产生的中心概念,对未分类的数据对象进行预测。

 

在SQL Server 2008中,我们可以通过挖掘模型查看器来查看Naive Bayes模型。如图3所示。

文件初始化会导致这些操作花费更多时间。 但是,首次将数据写入文件后,操作系统就不必用零来填充文件

图片 6

 

在图3中,依赖关系网络可以对数据的分布进一步了解。属性配置文件可以了解每个变量的特性分布情况。属性特征可以看出不同群分类的基本特性概率。属性对比就是呈现属性之间的特性对比。

 

4.关联规则算法

本文由澳门威尼斯人平台发布于澳门威尼斯人注册网站,转载请注明出处:SQL Server 2012还原一直卡在ASYNC_IO_COMPLETION浅析

关键词: