导航| 欢迎访问商讯网
大数据
当前位置: 商讯网 > 大数据 >

大数据认知计算 IBM沃森技术揭秘


投稿: admin  2013-10-17 11:42:24  来源: 比特网 我要评论(0 ) 访问次数 

  在10月11日,, IBM 中国研究院主办的“从 大数据 到认知计算”研讨会上,IBM 沃 森技术再度引起了业内关注。

  所谓“沃森技术”,实际上就是指IBM超级计算机沃森(Watson)所具有的AI(人工智能)技术, 它由不到100台IBM Power7 服务器 组成,通过并行化计算,经过语法语义分析、对各个知识库进行搜索、提取备选答案、对备选答案证据的搜寻、对证据强度的计算和综合等,给出问题的正确答案。

  在2011年3月3日,美国的一款电视智力答题节目《危险边缘(Jeopardy!)》中,沃森(Watson)成功击败了两位人类冠军赢得了 胜利 ,曾经轰动一时。这也被外界认为是IBM的成功商业营销,不过当时,更多是将其与IBM当时所倡导的“智慧地球”联系在一起。

  随着大数据应用的兴起,如今沃森(Watson)又和大数据进行了成功对接,与“智慧地球”相比,大数据似乎更接地气。为了进一步了解沃森技术,笔者查阅了网上资料,其中,InfoQ采访IBM中国研究院张雷博士的文章,对沃森技术有较为深入的披露,其全文如下:

  InfoQ:张博士,您好!我想大家都已经通过《Jeopardy!》节目领教到沃森的威力了。从接受人类语言的提问,到用人类语言给出答案,让机器完成这一过程、还要保证相当的正确率,听上去有些不可思议。能否请您举例介绍一下沃森在答题时背后发生了什么?其技术原理是怎样的?

  张雷:沃森在拿到问题后,会进行一系列的计算,包括语法语义分析、对各个知识库进行搜索、提取备选答案、对备选答案证据的搜寻、对证据强度的计算和综合等等。它综合运用了自然语言处理、知识表示与推理、机器学习等技术。我们知道,从单一的知识源或者少数的算法出发,很难让问题回答系统达到接近人类的水平。所以,沃森的主要技术原理是通过搜寻很多知识源,从多角度运用非常多的小算法,对各种可能的答案进行综合判断和学习。这就使得系统依赖少数知识源或少数算法的脆弱性得到了极大的降低,从而大大提高其性能。

  InfoQ:14年前,“深蓝”凭借其大规模计算与枚举能 力战 胜了国际象棋世界冠军卡斯帕罗夫。如今沃森的成功,有多大程度是依赖于其强大的计算能力,多大程度是依赖人工智能理论本身的发展?

  张雷:这两方面应该说都起到了很大的作用。人工智能领域的很多技术都应用在了该系统中,这是很明显的。另一方面,如果没有计算能力的进步,我们在提高 计算速度 方面可能也会遇到障碍。几年前,沃森在一台不错的服务器上回答一个问题需要2个多小时的时间。通过IBM Power 7强大的并行化计算能力,才把它压缩到了3秒内。另外,强大的计算能力其实也大大加速了开发进程。我们大量使用了Java语言和机器学习,而这些都是需要有较强的计算能力作为支撑的。

  InfoQ:沃森与同样 致力 于问题回答的计算知识引擎Wolfram|Alpha,还有著名的人工智能项目CYC 有何 相同和不同之处?

  张雷:据我所知,Wolfram|Alpha主要依赖于事先由人手工编辑的结构化数据作为知识源,而沃森则以现有的非结构化数据为主,适当辅以一些结构化数据。两者的计算方法也完全不同。我估计Wolfram|Alpha是以基于规则的匹配和计算为主,而沃森则是以统计推理为主。和CYC相比,沃森并不去构造基于形式逻辑的知识库,而是直接使用现有的用人类语言书写的知识,例如各种百科全书。CYC以形式化的逻辑推理作为基本的计算方法,而沃森是以统计推理为主。

  InfoQ:沃森看上去像是一种决策系统。作为决策系统,它不仅要给出答案,还要提供相关依据。这在沃森系统中是如何做到的?另外,如被告知回答错误,沃森是否具备自我学习和完善的能力?

  张雷:沃森系统的一个关键步骤是评价备选答案的可靠性。这个可靠性是由上百个算法从各种不同的角度评价得出的。例如:关键字匹配程度、时间关系的匹配程度、地理位置匹配的程度、类型匹配程度等等。沃森在每一个角度上都能得到量化的可靠性评价。而且这些评价算法所依赖的知识源也是可追溯的。所以,如果需要,沃森可以为用户提供答案的依据。

  在沃森参赛之前,它会从历史数据中进行学习。比如,如果它回答错了一个往期节目上的问题,它会从中学习到一些信息。在参赛之时,它主要依赖以前学习的结果,但也进行一些简单的在线学习。例如,它可以从已经被其它选手回答的同一类型问题中归纳出一些特点,指导其回答这类问题。另外,答错题目也会导致沃森调整其游 戏 策略。因此可以说,沃森具备了初步的自我学习和完善的能力。

  语义网技术在沃森中的应用

  InfoQ:在沃森系统中,从各处采集而来的海量知识是如何表达和管理的?知识出现不一致时将如何处理?

  张雷:非结构化知识主要就是以其原始的文本来表示的,而结构化知识则使用了诸如RDF这样的表示和管理方法。知识出现不一致时,沃森通过对大量往期题目的学习来发现哪些是在该游戏中更值得依赖的知识,而哪些在该游戏场景中是不可靠的。

  InfoQ:据介绍,沃森采用了包括RDF/Linked Data在内的Semantic Web技术。沃森为什么会选中这一技术?RDF及Linking Open Data的思想在沃森系统中是如何发挥作用的?

  张雷:Linked Data是非常重要的结构化的知识源。我们在研发沃森的初始阶段就考察了该如何利用这一重要的知识源。我们尝试了使用Linked Data,特别是DBpedia、IMDb等,来直接回答比赛中的问题。我们也利用Linked Data来帮助沃森对答案的类型进行判断。不仅如此,沃森在很多其它场合也借鉴了一些RDF及Linked Data的思想。例如,有些从文本中挖掘得到的知识是使用三元组形式表示的;当一个字符串代表的对象有歧义时,使用URI来代表不同的对象;利用RDF三元组中的谓词作为语义提示等等。

  InfoQ:沃森是否还应用了其他Semantic Web技术,如本体(ontology)、逻辑推理等?沃森强大的运算能力是否足以应付时间复杂度很高的推理需求?

  张雷:沃森应用了本体来帮助其对答案类型进行判断。例如,判断哈利波特是不是文学作品。DBpedia可能会告诉我们哈利波特是小说,而本体会告诉我们小说是一种文学作品。在沃森系统中,我们应用了简单的基于本体的逻辑推理,例如上下位关系、不相交关系(disjointness)等。这些简单的逻辑推理可以用简单快速的方法实现。

  InfoQ:在本体工程实践中,沃森是如何将DBPedia、YAGO、Wordnet等不同的本体结合起来的?涉及到本体映射与转换吗?

  张雷:很多本体是分开来单独使用的。因为我们需要沃森能够学习得到这些本体在这个问答环境中的不同的可靠程度。对于YAGO和Wordnet来说,它们有着天然的对应关系。我们也几乎没有使用其它本体映射和转换。

  InfoQ:请否请您简单介绍一下严格语义与浅层语义,以及沃森是如何平衡运用这两种技术的?

  张雷:我不知道”严格语义”与“浅层语义”是否有精确的定义。我的理解是:“严格语义”是和符号化的、形式化的逻辑系统相关联的,通常是精确无二义的。每个符号的语义都在逻辑系统中由其它符号精确的解释和定义。“浅层语义”则是和自然语言或者常识相关联的,具有一定的模糊性。两者有不同的适用性。沃森通过使用机器学习的方法,来学习得到该在什么场合应用什么方法。

  沃森代表自然语言处理和人工智能技术的突破

  InfoQ:随着沃森在《Jeopardy!》中击败人类选手,人工智能再次成为热点话题:有人称沃森是人工智能发展的一个里程碑;有人认为人工智能的前途一片光明;还有一些人则对机器越来越聪明表示担心。相对于人工智能历史上的屡次失败,沃森无疑是一次成功的人工智能实践。作为沃森项目的 参与者 之一,能否请您谈谈沃森在人工智能实践上的成功经验?人工智能前景如何?还有,您认为对人工智能的担忧有必要吗?

  张雷:对于人工智能实践来说,沃森的经验表明依靠单一或少数算法是很难成功的。而依靠大量的各种小算法的集成更容易取得进展。这似乎和生物界的多样性有着相似性。另外,沃森也说明,人工智能技术已经取得了相当大的进展,通过大规模的集成这些技术,很多我们看似很难的问题已经从“不可能解决”变为“可能可以解决”。例如,沃森表明,以前人工智能中的知识获取的瓶颈(knowledge acquisition bottleneck)似乎变成了一个可能可以解决的问题。

  对人工智能的担忧在现阶段是没有必要的。我们还没有看到机器具有自我意识。所有的功能都是由人控制和提供的。在现阶段,人工智能技术,包括沃森,是用来帮助人的,而不是取代人的。

  InfoQ:沃森除了用于《Jeopardy!》,还可以用于哪些领域?针对其他领域,需要做出哪些额外的努力?有没有什么是沃森不能做的?

  张雷:沃森代表的是自然语言处理和人工智能技术的突破,可以应用于很多领域,例如医疗、金融、电信、政府服务等。例如,在医疗领域,医疗记录、文本、杂志和研究资料都以自然语言编写——这是一种传统计算机难以理解的语言。一个可以立即从这些文件中找出准确答案的系统能够给医疗行业带来巨大的改变。IBM最近宣布与Nuance 通信 公司签署协议,在医疗行业探索、开发沃森计算系统的先进分析能力,并实现其商业化。当然,为了让沃森真正服务于这些领域,可能还需要准备相应的专业知识库等额外的努力。沃森不是万能的,对于具有很大主观性或依赖个人生活经验的问题,沃森现在是不擅长回答的。

  沃森的未来

  InfoQ:沃森未来是否有2.0版本?如果有,下一步会做什么?

  张雷:沃森的下一步开发计划主要是将沃森应用在实际生活的各个领域中,例如前面提到的医疗、金融、电信、政府服务等。

  InfoQ:像沃森这样的巨型系统,并非一般 企业 所能拥有,但它提供的服务又是广泛需要的。在这种情况之下,沃森今后会不会考虑提供云服务?

  张雷:沃森确实是一个庞大的系统。但具体来说,也就是运行在不到100台的IBM Power7服务器上。因此,它也并不是可望而不可及的。很多企业和机构已经拥有远不止100台服务器。当然,要让沃森服务越来越多数量的问答请求,需要的机器数量会上升。因此,我们也不排除通过云服务的方式来提供沃森。

  InfoQ:最后,您能介绍一下IBM中国研究院在沃森项目中的主要工作及成果吗?

  张雷:IBM中国研究院在研发沃森系统的过程中,发挥了重要的作用。我们为沃森系统采集、分析和使用各种结构化的知识,利用结构化和高可靠的知识提供问题解答,排除让系统显得“愚蠢”的答案,以及帮助沃森系统提高其学习能力。来自IBM中国研究院的很多技术成果已经融入在沃森系统中,而有的研究成果则为整个科研团队提供借鉴和参考。

分类: 大数据   关键词 大数据
分享到:  
20.9K
栏目导航
热门标签
图片推荐