人工智能的精髓是什么(2023年最新整理)

时间：2023-12-08 本站点击：0

导读：很多朋友问到关于人工智能的精髓是什么的相关问题，本文首席CTO笔记就来为大家做个详细解答，供大家参考，希望对大家有所帮助！一起来看看吧！

前沿专访 - 商汤科技栾青：人工智能的基础是现实世界数字化

栾青认为， AI是把现实世界数字化的重要工具。有了人工智能，就可以在虚拟世界里更快生成人、物、场景，大大降低元宇宙的构建门槛和成本。AR/VR与AI的结合，能跨行业解决很多不同问题。除了游戏、社交外，在工业、建筑、医疗等产业数字化领域，也有比较多的应用空间。

不过，栾青也指出，目前相关产业还是处于初期发展的阶段，不管是硬件体验、内容生成平台，还是所涉及的经济系统、授权认证系统等均需时间来建立。五年通常被认为是硬件的一个迭代周期，而最终的成熟时间依然很难预测。但在终极的数字世界建立之前，会有比较多的雏形形态，能够解决日常生活中的一些问题。

人工智能的核心，在于持续把现实世界数字化

栾青：不管是称其为元宇宙，还是叫混合现实，或者数字世界也好，类似的概念已经存在非常久了。目前来看，AI所起到的作用主要包括三个方面。

首先，人需要拥有一个新的身份，AI将帮助大家以数字分身Avatar，更好地进入到虚拟世界里；其次是虚拟世界的多模态人机交互体验，即这些数字人对不同的虚拟世界、不同服务进行人机的交互；第三，虚拟要与真实结合，AI可以更快速地构建虚拟世界。

《科创板日报》：当下已经有哪些落地的应用场景？

栾青：目前所基于的载体是各类屏幕、电子设备，比如手机、电脑、大屏，当然还有开始初步应用的VR和AR眼镜。

在To C的应用方面，包括了各种各样的VR社交应用、会议系统等。在To B的方向，较为常见的是通过智能数字人，来替代某一项服务的重复性劳动。比如在商场、银行、医院等，数字人可以帮助前台来完成刷卡、来访登记等这些简单、重复的工作。

AI还能实现三维内容的快速生成，比如通过无人机或者手机快速扫描，就可以把现实场景在数字空间里建立起来。这在智慧城市的管理，智能遥感技术的应用已经非常多了。

在今年冬奥会期间，我们就对冰壶赛场冰立方的整个场馆进行了三维数字化。通过AI技术捕捉冰壶在三维场景中的位置，成功实现了在超大空间范围内，远距离精准检测并识别定位跟踪可能被遮挡的运动冰壶。不仅如此，我们还通过“虚实结合”的方式，在现场大屏和咪咕视频还原冰壶的运动轨迹曲线。这不仅可以帮助运动员分析研判对战形式，适时调整战术，还能让观众更好地了解和感受冰壶运动的精髓。

《科创板日报》：完成对水立方场景的三维数字化重建，大概需要多久时间？

栾青：我们在场馆内走一圈的时间大概是十几、二十分钟，然后在两个小时之内就能把整个水立方冰壶比赛场馆进行完整建模。这还是普通服务器的建模速度，如果使用性能更强的服务器，还有可能会更快。

《科创板日报》：AI为现实世界数字化所带来的效率提升，您有没有相关的数据？

栾青：比如，过去建立一个数字人，平均时长大概剩3-4个月。通过AI的优化之后，在初步情况下可达到一个月以内。未来我们还将会把整个流程优化到以天为单位的级别，这样可以让很多行业高效率使用自己的虚拟形象代言人，这是我们正在努力的方向。

可以说，现实世界数字化，是AI最核心在做的事情。如何更快生成人、物、场景，降低成本和门槛，而不是需要专业的设计师花很长时间才能做完。

《科创板日报》：所谓现实世界数字化，在产业化场景也有应用空间，比如说像工业领域一直在提的数字孪生。

栾青：是的，三维建模和数字化管理是比较通用的技能，可以跨行业解决很多不同问题。在工业、建筑、医疗等等，都有比较多的可能性。

其中，工业是非常典型的场景。我们也实现了许多工厂，包括对工业园区、工业厂房等的快速三维建模。通过快速三维建模后，对现有的各种摄像头设备或者其他分配的信号进行连接，就形成了一个典型的数字孪生场景。

AI的优势在于，不需要设计师进行场景的三维重建，这是一项较为劳动力密集的工作。我们用普通的民用摄像头产品，甚至手机围绕现场走一圈就可以把场景快速地建立出来。

而且这些部署的摄像头，可以实现三维高清定位，快速地标定至三维的空间位置中，这样不管厂区还是园区的数字化管理就会非常高效地进行。

数据化和硬件体验是两大挑战

《科创板日报》：“AI+XR”的结合应用还是处于初期发展阶段，您觉得可能还存在哪些挑战？

栾青：挑战主要有两个方面。

首先是体验。这是需要全行业一起解决的事情，包括大家常说的VR或AR内容生态，依赖整个行业一系列的技术提升，把整个体验和内容建立起来。

其次则是数据化。虚拟世界或者说数字世界的存在，最终要帮助到真实世界解决实际的问题。但挑战在于，很多的场景是具有长尾效应。比如在工厂，有些设备是在别的厂区见不到的，或者在这个特殊行业才拥有的，那就需要进行一系列长尾内容的数据化。如何高效率低成本识别不同的内容，并且实时的数据化到我们系统当中，这也是一大挑战。

《科创板日报》:虚拟现实应用要真正发展起来的话，可能涉及到哪些关键产业链？

栾青：首先硬件的产业链肯定是第一步。必须采用大家习惯、能够日常使用的体验方式，才能普及。就像手机如果非常重，又很昂贵，那么大家不太可能用起来，很多应用也无从落脚。

所以，硬件成本的降低，以及重量、散热、耗能等的提升，仍然要不断去攻克的瓶颈。由此来看，光学显示，包括轻量化的芯片等，应该都会有较强的发展空间。同时，基于硬件的各种智能化，包括手势识别、面部驱动，三维人建模等内容工具，也亟待发展。

内容生成平台也非常关键。三维比二维的内容制作要复杂很多。以前可能只有游戏厂商，需要做复杂的三维内容，但投入也是非常大的。如果我们希望走向全民普适，比如银行、商场、办事大厅等，都进入到三维数字世界之中，你发现成本就会变得非常巨大。各种各样高效的内容生产工具和平台也会有一轮需要被突破的过程。

此外，如果所有人都需要在三维互联网进行更深入地交流，那么大规模云端的协同性计算，也会有一个巨大的发展契机。当然，还包括经济系统、授权认证系统等，都要在这个体系下被建立起来。

看好数字文创和数字人

《科创板日报》：您预估成熟期需要多久呢？

栾青：现在还比较难预测。不过，在终极的数字世界建立之前，会有比较多的雏形形态，可以解决日常生活中比较多的问题。

比如刚才提到的数字人在垂直领域的应用，已经可以消除很多服务体验和效率上的难点。并不一定非要有全新的硬件或者不同的内容生产生态。只要在专业领域做得比较好，就可以有效地提升生产效率。这种行业级别的应用，我们认为已经到来了。

而全民的、普适性的三维互联网级别，可能还需要一定的发展周期，大家常说5年是一个硬件迭代周期，我们也拭目以待。

《科创板日报》：目前比较有前景的应用，除了数字人之外还有哪些？

栾青：数字世界需要各种各样的内容，人是一方面，物是另一方面。把很多现实物品进行数字化，也已经成为一个重要的体验环节。

在这方面，数字文创拥有比较大的发展契机。我们已经与敦煌、故宫等大型IP合作，来进行数字内容的体验提升，更好地展示中国传统文化的魅力。

事实上，数字世界可以有更大的创造空间，展示现实文创产品展现不了的内容。过去是数字赋能实物，现在是实物赋能数字，通过AI/AR的方式，把虚拟的数字内容附着在实体上面，这是我们对数字文创的定义。

《科创板日报》：您在人工智能从事研究工作多年，您认为人工智能对人类而言，所具有的最大意义是什么？

栾青：人工智能本质上模拟了人类大脑处理信号的方式。在人工智能出现之前，计算机只能处理数字化的信号，没有办法表达自己的思想，依然需要人对这些信号进行解析，才让其变得有意义。

人工智能出现，首先是把现实世界数字化。这样计算机在很多领域就能看懂现实世界的信号，而不用依靠人力。计算机可以自动地、主动去做一些事情，这样提升了数据处理的效率。其核心是解决了信息入口的问题。也就是原先需要人进行输入，现在整个世界的数据信息不断自动地流入到计算世界里。

当然，人工智能不只是解决入口问题，还要进行各种三维数字内容生成，这是另一价值所在。这方面，人工智能可以把许多重复性劳动替代掉，也是我认为未来重要的发展方向。

人工智能最重要的仍是心灵是认识。为什么?

本期为您解读的是一本人工智能领域的经典论文集，名字叫做《人工智能哲学》。这本书的中文版大约42万字，我会用大约20分钟的时间为你讲述书中精髓：计算机究竟能否成为心灵本身，而不只是心灵的工具？要回答这个问题，既取决于我们如何理解计算机能做什么，更取决于我们如何理解人类心灵是什么。这就是这本论文集的试图解答的问题。

我们先来看一个思想实验。

假设一个外国人被锁在一间屋子里，不断地收到从屋外递进来的中文纸条，但他只懂英语不懂中文，不能看懂纸条上的中文内容。再假设这个外国人收到的纸条上不仅有中文符号，还有一套用英文写的规则，告诉他如何找到对应的中文符号。最后他收到英文的指令，要求送回某些特定的中文符号。他就完全照着指令做了，找到了相应的中文符号，并且照葫芦画瓢地在纸条上写出来，再递出屋外。这个过程不断重复，那么在屋外的人看来，递进去的所有中文问题都得到了有效的回答。但我们会认为这个外国人确实懂中文了吗？显然不会，他只是按照英文的指令处理中文符号而已。

这就是在人工智能发展史上非常著名的“中文屋”论证。它的提出者是美国哲学家约翰塞尔。中文屋论证的目的是反对“强人工智能”的理念。所谓的“强”当然是与“弱”相对的。在弱人工智能的意义上，计算机只是我们研究心灵的工具，比如它能验证许多关于心灵的假设。但是强人工智能的观点就不同了，它会认为计算机并不只是工具而已，而是有可能成为一个真正的心灵，能够像人类一样理解和认识这个世界。

但塞尔想说，计算机也不过就是中文屋里的人，尽管它能处理中文的符号、回答中文的问题，但这绝不是说计算机就“理解”了中文。实际上，计算机只是按照规则做运算，输出运算得出的结果，而并不能理解问题与答案的意义。所以，如果中文屋论证是成立的，那么强人工智能只不过是一种美妙的遐想，计算机充其量只能是人类心灵的工具，而不会成为心灵本身。

中文屋论证引起了广泛而热烈的讨论。实际上，围绕人工智能话题展开的类似讨论还有很多。玛格丽特博登教授是英国科学院院士、苏塞克斯大学认知科学学院院长，她从这些讨论中挑选出有代表性的文章，编了这本取名《人工智能哲学》的论文集。

从这本书中，我们既能读到人工智能的先驱阿兰图灵的教导，也能聆听像塞尔这样的当代哲学家的声音，还有当前的最新进展，比如机器学习理论的关键文章。可以说，这本书中选取的15篇经典论文，精要地总结了从上世纪五十年代开始，到上世纪末为止的人工智能哲学思想的发展，哪怕是最外行的读者也可以由此对人工智能的哲学基础有个基本的认识。

好了，下面我就为你详细讲述这本书的核心内容。计算机究竟能否成为心灵本身而不只是心灵的工具？机器能做到哪些事情会被看作是有了人类的智能？而要回答这些问题，我们首先需要弄清楚一个更基本的哲学问题，那就是：人类的心灵究竟是什么？可以说，从苏格拉底的时代以来，哲学家就一直在探讨这个事情。我们怎样认识自己的心灵，也就决定了我们会怎样设计机器，让它具备人工的智能。这既是人工智能构想的发端，也影响着人工智能科学与技术进展的哲学基础。

学习人工智能AI需要哪些知识?

需要数学基础：高等数学，线性代数，概率论数理统计和随机过程，离散数学，数值分析。数学基础知识蕴含着处理智能问题的基本思想与方法，也是理解复杂算法的必备要素。今天的种种人工智能技术归根到底都建立在数学模型之上，要了解人工智能，首先要掌握必备的数学基础知识。线性代数将研究对象形式化，概率论描述统计规律。

需要算法的积累：人工神经网络，支持向量机，遗传算法等等算法；当然还有各个领域需要的算法，比如要让机器人自己在位置环境导航和建图就需要研究SLAM；总之算法很多需要时间的积累。

需要掌握至少一门编程语言，比如C语言，MATLAB之类。毕竟算法的实现还是要编程的；如果深入到硬件的话，一些电类基础课必不可少。

拓展资料：

人工智能（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。

人工智能是一门极富挑战性的科学，从事这项工作的人必须懂得计算机知识，心理学和哲学。人工智能是包括十分广泛的科学，它由不同的领域组成，如机器学习，计算机视觉等等，总的说来，人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种“复杂工作”的理解是不同的。2017年12月，人工智能入选“2017年度中国媒体十大流行语”。

参考资料：百度百科—人工智能：计算机科学的一个分支

朱教授的《浅谈人工智能》

人工智能现在很火，一方面是各种产品的实际运用视频（比如天猫精灵，比如机器人抗震救灾），另一方面是非常火爆的大数据和深度学习。看起来效果很好，但是实际上目前都是在鹦鹉学舌的阶段，费了大量的人力和算力，只是针对了一些特定任务，并且背后依然是人告诉机器该怎么做。

现在的人工智能，概括来说是处于大数据，小任务阶段。未来的人工智能，是小数据+多任务。数据其实就是外在环境的因果，任务就是智能生物与生俱来的生存价值本能。

前者，外在环境的因果，这就是物理学的本质：“相信世界存在完整的因果链条，并去找到它”。后者，生物的生存本能，这是达尔文的进化论思想，因此未来的人工智能，也可以看做是牛顿和达尔文的思想结合。

可以分为以下六个大方向：计算机视觉（可以理解成图像识别处理）、自然语言理解交流、认知与推理（物理和社会常识）、机器人学（机械相关）、博弈与伦理（伦理其实就是各方博弈的最终平衡态）、机器学习（目前最火的深度学习就是其中一种）。

这些方向曾经分的很远，现在就向战国六雄（历史上是七个）一样互相渗透，有朝一日可能会像秦国统一一样合并为一体。

现阶段，比如还原一个三维场景，是采用多角度拍摄多张图片的特征点比对，来建模。但是实际上人脑看一张二维的照片就能还原出三维场景了。靠的是常识推理。比如几何推理，照片中的椅子高度应该和人的小腿差不多高（这样才能坐得舒服），而精度是依据任务循序渐进的，比如要去拿个杯子，并不需要一开始就知道距离4.56m，只需要知道大约三四米，然后在靠近的过程中调整精度即可。

另一个任务驱动的研究如下，给机器一个挖土的任务，机器能够在一堆物品中找出最好用的工具。组1是训练的数据，到组2就是机器自己挑选了，到组3，只剩下石头，就像石器时代的原始人一样。目的是完成挖土的任务，目的是找出可以握且有尖头的物体。而不是现在流行的图像识别（找出一堆物品中的铲子，把铲子换成石头就茫然了）。

未来的图像识别应该和推理小说中的侦探一样，不仅能看到东西，还能想到这东西意味着什么，可以用来作什么。

这是一个人和另一个人（机器）的交流图。底部的那个椭圆代表了人类社会的常识。这就是机器认知现在研究的领域，主要是通过关注人的行为，进行猜测，然后后验。

语言则是左边，中上，右边三个椭圆。一次完整的对话，两个人之间至少要表达五个脑袋minds：我知道的东西、你知道的东西、我知道你知道的东西、你知道我知道的东西、我们共同知道的东西。

语言的交通过程中涉及信息的编码，这里可以参考古代的象形文字，对于生成模型来讲语言就是视觉，视觉就是语言。

分解每一步任务

建立一个利益函数，在对环境建立一个流态函数。博弈就是流态函数与利益函数的动态平衡。

这个通讯学习的构架里面，就包含了大量的学习模式，包括以下七种学习模式（每种学习模式其实对应与图中的某个或者几个箭头），这里面还有很多模式可以开发出来。

（1）被动统计学习passive statistical learning：上面刚刚谈到的、当前最流行的学习模式，用大数据拟合模型。

（2）主动学习active learning：学生可以问老师主动要数据，这个在机器学习里面也流行过。

（3）算法教学algorithmic teaching：老师主动跟踪学生的进展和能力，然后，设计例子来帮你学。这是成本比较高的、理想的优秀教师的教学方式。

(4) 演示学习learning from demonstration：这是机器人学科里面常用的，就是手把手叫机器人做动作。一个变种是模仿学习immitation learning。

（5）感知因果学习perceptual causality：这是我发明的一种，就是通过观察别人行为的因果，而不需要去做实验验证，学习出来的因果模型，这在人类认知中十分普遍。

（6）因果学习causal learning：通过动手实验，控制其它变量，而得到更可靠的因果模型，科学实验往往属于这一类。

（7）增强学习reinforcement learning：就是去学习决策函数与价值函数的一种方法。

截取原文片段代表个人感受。在尝试总结过程中也感到，失去详细的案例很难表现出作者原意的精髓，再次附上原文链接

;mid=2247484058idx=1sn=0dfe92a0991294afba2514b137217a66chksm=eac3276addb4ae7c6acbc6f9275bf8ad5dcefafab631b41905d9f78c01ae46ddde8b2d9e7b31mpshare=1scene=1srcid=0526G0MgHqDwv8vhzGpKIHGBpass_ticket=K1eKZVR1VSh44A8VZqdYnEwua%2BlSWVPidJZpv2Y%2FNTbsCXVus5wHaI3fg4hggW7z#rd

人工智能的研究方向包括哪些

首先，人工智能的所有方向都有一个共同的目的，就是企图产出一种“类人”的智能机器。任何一种类别的人工智能都要通过对人的意识和思维信息处理过程进行研究，模拟出像人那样思考，或者像人一样行动的智能产品。人工智能的一个很重要的方向是数据挖掘技术，这种技术的原理是用计算机进行数据分析，然后进行人性化的推荐和预测。比如，我们电脑上的广告是根据我们日常浏览网页的兴趣进行推荐的，微博上、网站上最显眼的也是我们最感兴趣的内容，这些都是计算机分析而得出的。本质上，这种技术发挥的功效与人类的“思考”是相类似的，虽不能完全对等，但现在也能够达到很好的辅助效果。人工智能的一大方向是计算机视觉类，其中包括我们所熟悉的图像识别、视频识别、人脸识别等等。计算机视觉的精髓是教会计算机如何去"看"，也就是说，计算机视觉人工智能所要达到的终极目标是用摄影机和电脑替代我们人类的肉眼，这样识别出的图像或者测量出的数据会更准确。比较著名的是“人脸识别”，这属于现在比较流行的身份验证技术之一，通过摄像采集人脸的画面，转化为图像数据，再跟数据库当中的人脸特征信息作“点对点”对比，从而进行身份识别。人工智能的另外一大重要方向是自然语言处理技术，包括机器翻译、语音识别等等。其中语音识别是最核心、普及程度最高的一种自然语言处理技术。语音识别技术是将人语音当中的词汇内容识别出来，通过技术手段，转换为计算机可读取的内容。通俗点来说，就是要让机器学会“听人话”，让计算机作我们的“耳朵”。

结语：以上就是首席CTO笔记为大家介绍的关于人工智能的精髓是什么的全部内容了，希望对大家有所帮助，如果你还想了解更多这方面的信息，记得收藏关注本站。