IBM实验室总监谈大数据前沿趋势

投稿: adg 2013-11-30 08:47:12 来源: 比特网我要评论(0 ) 访问次数

　　大数据技术所涉及的领域非常广泛，从硬件基础设施，到数据库，再到上层应用，大数据技术身影遍布IT应用的各个层面、各个角落。但要从大数据当中挖掘出价值，此项重任非分析技术莫属。那么，大数据分析技术的研发难点是什么？未来将如何发展？比特网记者为此采访了 IBM 大数据实验室总监Aya Soffer女士，她领导着IBM全球12个实验室来进行研发。她介绍说，她所领导的IBM实验室并不是对已经成熟的技术做商业化研发，而是注重前瞻和突破性的研究，其工作方向包括三大部分：第一，如何从非结构化的流媒体数据中抽取数据帮助决策和分析，例如

　　在音频和视频当中抽取特殊数据帮助决策分析;第二，是数据可视化，如何将分析得出的结果以可视化的方让业务用户能够理解;第三是可视化与地理位置信息相结合，例如在港口监控所有船只，根据异常情况结合人员分析来判断实现更快的分析。

　　问：您刚刚提到正在研究语音、视频方面的大数据应用，这些数据在大数据分析中，其技术挑战在哪？目前在哪些方面有进展？

　　Aya Soffer：现在对单个语音、视频的处理，已经有很多系统做的很好，但如何理解影像背后的意义——即语义分析和语境分析——这就是目前的技术难点。例如，从一张或者多张照片中要找到两辆车有可能会相撞，这个特征提取就比较难了。

　　问：非结构化数据是大数据当中最常见的一部分。以自然语言的翻译为例，目前存在两种方式，一种是利用语言学家的方式，根据语言理论进行翻译;另一种方式则是类似于谷歌的匹配法，不管语法和规则，将原文与( 互联网上的)翻译数据对比，找到最相近、翻译结果被引用最频繁的。这两种方式，您认为哪种更适合目前的应用环境，或者是哪一种更有成效？

　　Aya Soffer：这两种方式并不矛盾，根据实际的应用场景，这两种方式都要用到。基于统计的方式，仍将继续发展。在我们对错误容忍度比较高的情况下，基于统计的方式就会工作得很好;而在我们对精确度要求很高的情况下，就需要应用到传统方法了。

　　问：机器学习是大数据应用当中非常流行的一种方式，但流派众多，哪几种更受认可？

　　Aya Soffer：机器学习目前主要有两种趋势:第一种，更深入的学习，即如何在没有人工干预的情况下，通过大规模的计算进行深入的学习和分析;另一大趋势就是适应性学习，即如何让你的模型和算法，通过自己设定的反馈机制来不断进行自我调教。

　　问：IBM实验室所研究的这些技术，需要多长时间才能应用到产品中去？

　　Aya Soffer：至少需要1—2年。我们也在跟产品部合作一些小的创新，这些创新在1、2年内就可以变成商业化的产品。但如果是一些非常跨时代的创新，需要的时间就非常长了。例如Watson系统，我们从2006年就开始做了，但商业化只有不到一年。不过，现在外面环境发展要求软件的开发周期越来越快，而云计算也让我们把这些创新更快的提供到市场上。

　　问：IBM今年收购了很多跟大数据相关的公司，这对目前的研究方向有什么影响？如果收购的技术跟我们正在研究的项目重合，会怎么处理？

　　Aya Soffer：收购是好事，意味着我们不需要重新创新，收购来的产品肯定已经有了一定的技术沉淀，而我们实验室则会对新收购的产品进行一定技术上的合作来提升它。

分类： 大数据 关键词： ibm

打印邮件

分享到：