数据科学的浪潮计算社会科学研究综述

摘要:计算社会科学自2009年正式提出,已经经过十一年的发展。本研究数据科学的视角拓展科学环的
专项审计
理论框架,在此基础上对计算社会科学研究进行综述。计算社会科学应该从重要问题出发,借助于包括大数
据在内的多种来源的数据、计算机科学的算法、物理学或数学模型,对人类行为和想法进行测量,捕捉到模式
或法则,发掘背后的机制和普适性的原理。因果推断依然是计算社会科学的核心,计算社会科学的发展方向
依然在于建构更加强大并有用的好理论。
关键词:数据科学;计算社会科学;因果推断;大数据;算法;模型
中图分类号:C39文献标识码:A 文章编号:1006-2815(2021)02-00016-16
DOI :10.19946/j.issn.1006-2815.2021.02.002
收稿日期:2021-04-22
基金项目:南京大学中央高校基本科研业务费专项资金资助“人工智能时代的计算传播研究”(011014370119);江苏省社会科学基金项目
金寨地震
“人工智能时代数字媒体上的注意力流动研究”(19JD001)
作者简介:苟泽鹏,南京大学新闻传播学院计算传播学实验中心硕士研究生,主要从事媒介心理学研究;
董悦,南京大学新闻传播学院计算传播学实验中心硕士研究生,主要从事计算叙事研究;
闫一帆,南京大学新闻传播学院计算传播学实验中心硕士研究生,主要从事新媒体研究;
王成军,南京大学新闻传播学院计算传播学实验中心副教授,主要从事信息扩散和计算叙事研究。
E-mail :********************
数据科学的浪潮:计算社会科学研究综述
苟泽鹏董悦闫一帆王成军
爱在钢琴上一、引言
Lazer 等人2009年在《科学》杂志发表《计算社会科学》一文[1],标志着计算社会科学的开端。十一年过去,计算社会科学已经取得了长足的发展,吸引了大量的研究者进入到这个新的领域当中。与之类似,人文学科的研究者也在积极倡导并发展数字人文研究。2018年,中国教育部正式提出新文科的发展思路,并在2020年开始全面推进新文科建设。计算社会科学为新文科建设提供了切实可行的操作框架,对计算社会科学的发展进行综述有利于厘清对新文科建设的认识。一方面,计算社会科学的发展为社会科学的研究带来了很多机遇;另一方面,计算社会科学本身也遇到了许多本质性的问题。例如,Lazer 等人在2020年最新的一篇文章当中明确提出计算社会科学在跨学科合作、数据分享框架、隐私和伦理等方面遇到挑战[2]。
计算社会科学的发展引起了很多研究者的重视。Salganik 将计算社会科学看作数据科学与社会科SCIENCE ·ECONOMY ·SOCIETY 第39卷总第163期2021年第2期
学的融合,系统地介绍了数字时代为社会研究带来的机遇[3]xv-xvii ;王飞跃2004年提出社会计算的学科体系[4];孟小峰等在2013年将社会计算作为大数据时代的机遇与挑战,进一步提出面向社会科学和面向技术应用的两大趋势[5];陈浩等从社会科学和信息科学两条发展脉络展开,把计算社会科学视为两大学科
的“共同机遇”[6];祝建华、王成军等较多关注计算社会科学在新闻传播学中的应用[7-8];韩军徽等更加关注
计算社会科学的兴起为社会研究带来的机遇[9];罗俊则聚焦于社会计算科学领域的数据计算、模拟、实验三种新的研究方法[10]。这些研究存在一些明显的问题,集中体现在未能提供一个分析和理解计算社会科学的整体性框架。
计算社会科学的发展遵循数据科学的基本逻辑,即追求问题、数据、算法、模型和因果推断的融合,根本使命依然在于理解重要的社会问题并发展好的理论。为了更好地理解计算社会科学的发展,本研究将首先基于数据科学和科学环的逻辑建立理论框架;接下来,将采用数据科学作为理论框架,从问题、数据、算法、模型、因果推断五个角度对计算社会科学的发展进行综述。
二、计算社会科学的理论框架
数据科学为理解计算社会科学提供了重要的思路。可以采用韦恩图对数据科学的一个简洁的表述:数据科学是计算机科学、数学和统计知识、专业领域知识三方面的重叠。专业领域知识与统计知识的重叠区域为传统的研究;计算机科学与数学和统计知识的重叠区域为机器学习;最需要警惕的是计算机科学与专业领域知识的重叠,因为缺乏数学和统计知识的支撑(尤其是假设检验的逻辑),这个区域被称为危险区域。数据科学的韦恩图对于理解计算社会科学具有重要价值,然而作为一个分析框架依然存在明显的不足。它至少忽略了两个方面的问题:首先,大数据在计算社会科学当中所扮演的角;其次,社会科学是围绕问题组织的,忽略了研究问题会让研究者迷失方向。
本文主张从科学环的角度来构建用来理解计算社会科学的理论框架(见图1)。科学环是美国社会学家华莱士(Walter L.Wallace )对科学发展过程的总结[11]。科学环将科学描述为一个理论和社会现实互动的过程。可以沿着理论或经验、归纳或演绎两个主要的维度将科学研究分为四个象限。虽然科学作为一个圆环,研究者可以从任意一个位置切入,但是社会科学更加偏好的却是理论驱动的实证研究。从理论当中来,到理论当中去。具体而言:1.从理论出发经过逻辑演绎提出研究假设;2.通过经验观察收集数据;3.对概念进行测量并建立模型对假设进行检验;4.对经验进行概括,然后可以分成两条研究路径:4a.接受或拒绝假设,并经由逻辑推论的方式发展理论;4b.形成新概念和命题,进一步发展理论。其中,定性研究或质性研究更倾向于4b 路线,而定量研究更倾向于走
4a 的路线。当然,这仅仅是就研究的表象而言;就研究的实质而
言,不管是定性研究还是定量研究都可以走假设检验和概念命题
这两条路线。采用科学环来理解计算社会科学会出现以下问题:
档案管理系统
facebow第一,科学环的一个问题是未能突出研究问题。脱离了现实
问题的理论容易变得视野狭窄。例如,理论驱动的实证研究者会
倾向于从自己所熟悉的理论出发。如果把理论比喻成一棵树的
话,社会科学的理论是如此之多,以致已经形成了理论的丛林。
甚至经常出现对于同一个问题具有多种理论模型;然而这些理论
模型的核心假设也许是自我矛盾的。研究者如果缺乏理论品味
图灵奖的话,就很容易吊死在一棵树上或迷失在晦暗的丛林里。也许研图1
计算社会科学的理论框架
苟泽鹏,等数据科学的浪潮:计算社会科学研究综述
2021年第2期
究者所选择的理论并非参天大树,而只是小灌木,甚至是藤蔓,并不具有强大的解释力。这种类型的研究所隐藏的一个更大的风险在于社会科学研究者比我们所想象的更加依赖常识[12]。当然,从经验观察出发的研究者可以更好地捕捉经验背后对应的社会问题。但是就形式而言,科学环依然未能体现对社会问题的重视程度。计算社会科学更加主张对于重大社会问题的重视。例如,Watts就建议社会科学更加重视对问题的解决方案[13]。本文也主张计算社会科学研究从重要的问题出发,并最终解决这些社会问题。需要说明的是从重要问题出发并非忽视理论,而恰恰是为了更好地发展理论,避免自说自话的理论。
第二,计算社会科学对于科学环的另外一个拓展在于使用大规模的数据。但是,计算社会科学绝非只研究大数据,而是将大数据作为重要的基础和能力纳入到社会科学研究的工具箱当中。基于多种来源、多种类型的数据来进行经验观察已经成为计算社会科学的一个重要特点。例如,吴令飞等人使用专利、软件开发、论文三种类型的数据,发现小团队在颠覆性创新方面比大团队更有优势[14]。
第三,计算社会科学在方法论上的一个主要的特点在于使用更多的计算方法。这些方法超越了已有的统计模型和方法,纳入了更多的计算机科学的算法、物理学和数学的模型。例如,Vosoughi等人在对推特上的假新闻扩散进行研究的时候,综合使用了网络科学分析方法、自然语言处理技术和多元回归模型等统计方法[15]。当然,计算方法不会替代已有的统计方法,实际上,计算方法和传统方法是互补的,二者可以相辅相成、相得益彰。大数据和调查/内容分析是补充而不是替代。大数据不会消除向人们提问/内容分析的需要,实际上会增加提问/内容分析的价值,当有更多的大数据时,人们会想要更多的调查/内容分析[3]117-129。
第四,计算社会科学追求从简单的假设检验走向因果推断和预测。就形式上而言,科学环的中心是假设检验。今天社会科学研究者所使用的统计方法多数来自于费舍尔等人所建立的假设检验的逻辑。计算社会科学依然沿着假设检验的思路发展,假设检验背后是基于证伪的科学发现的逻辑。具体而言,研究者没有办法证实一个假设,只能通过证伪作为零模型的假设进而支持备择假设。然而,传统的统计分析方法具有两个问题:第一个问题是忽视了因果推断。很多研究主要是基于相关关系,而不是因果关系。在大数据和人工智能时代,好的理论依然非常有用。计算社会科学不应停留在相关性方面,应该朝向因果推断的方向继续前进。另外,计算社会科学将机器学习等计算机算法引入到了社会科学研究当中来,弥补了社会科学缺乏预测能力的问题。
克里斯·安德森(Chris Anderson)2008年在《连线》杂志发表了一篇极富煽动性的文章,名为《理论
的终结:数据将会让科学方法失去效能》,提出大量数据以及处理这些数据的统计工具的可用性,为人们提供了一个理解世界的全新方式:相关性取代了因果关系,即使缺少了连续模型、统一理论或者任何机制论解释,科学依然可以前进。与之类似,图灵奖获得者Jim Gray提出了科学研究的第四范式——数据密集型科学发现(Data-intensive Scientific Discovery)[16]XVII-XXXI。人类科学研究活动已经历过三种不同范式的演变过程:原始社会的“实验科学范式”,以模型和归纳为特征的“理论科学范式”,以模拟仿真为特征的“计算科学范式”,目前正在转向“数据密集型科学发现范式”。科学研究人员只需要从大数据中查和挖掘所需要的信息和知识,无须直接面对所研究的物理对象。这是过于实用主义的思路,其背后的假设是大数据唾手可得,覆盖日常生活的方方面面,这些都与大数据本身的特点相冲突。正如接下来要分析的那样,大数据并不易得,并且具有不完整性。大数据作为科学发现的第四范式实际上是前三个范式的结合,即理论、实验和模拟的统一化,但又增加了对数据搜集和分析的重视。
综上,将数据科学的韦恩图与科学环结合起来,同时加入研究问题、因果推断和预测,构成了本文分析计算社会科学研究的理论框架。接下来,本文从问题、数据、算法、模型、因果推断这几个方面对计算社会科学进行综述。
苟泽鹏,等数据科学的浪潮:计算社会科学研究综述
三、计算社会科学关注的问题
计算社会科学聚焦于通过计算来回答人们关切的重大社会问题。按照数据科学的逻辑发展,计算社会科学追求数据、算法、模型和问题的融合,其发展方向和根本使命依然在于理解重要的社会问题并建构更加强大、有用的理论。因此,对十余年来计算社会科学关注的问题进行梳理分类就显得十分必要。
正如Lazer等学者所言,人们生活在网络中[1]。在人们的日常生活中,发、发微博、使用、网络购物、在线看电影听音乐等人类行为都会留下大量的行为痕迹,构成了数字时代大数据的来源。大数据覆盖了生活的各个方面,构成数字时代的显微镜。基于文本、网络、图片、语音和视频的分析成为可能,有助于更加全面地认识并提出重要的社会问题。计算社会科学关注的问题是人类生活当中存在的真实问题,大数据和算法模型构成了回答这些问题的基础。计算社会科学试图重构个人和体的行为、情感、心理图景,从而验证或变革对人类社会的理解。Watts认为目前社会科学领域的理论解释存在较为分散、甚至互相矛盾的局面,他进一步提出采用一种更注重解决问题的思路,即从一个实际问题出发,研究需要哪些理论和方法来解决它[13]。
计算社会科学的一个突出特点是,其研究关注的问题及其追问可能涉及多个学科,或者说是去学科界限的。计算社会科学不仅依托于技术手段的应用,更是将以大数据计算为代表的科学与人文社会科学相互融合的创新方向。传统的人文社会科学对于人类社会行为的研究,往往由于社会现象的复杂特性而缺乏连贯的理论框架,无法从更宏观的角度进行提问并得到共通的解释。而传统物理学、计算机科
学对人文社会科学的理解也往往囿于自己的学科框架。计算社会科学思考的问题,是将现有分支学科的关注点进行回归、反思和整合,从而使传统学科研究中经验的、混乱的问题变得更加深刻、有迹可循。例如,在传统物理学的研究认知中,人类社会行为是可以通过方程、模型来计算并预测的,而Salganik等学者通过在线实验收集用户下载音乐的数据,探究了音乐市场流行度的“乐队花车”效应(bandwagon effect)[17]。这一场MusicLab实验得出了“人类行为具有不可预测性”的结论,在一定程度上更新了传统物理学家对社会学问题的看法。在过去的11年里,计算社会科学已经在传统学科、创新学科、跨学科研究等诸多领域问题的研究上取得了一系列重要成果。由此,从衍生学科领域的路径梳理计算社会科学试图解决的社会问题,大致可以分为基于传统社会学研究的行为社会科学、基于大数据计算技术的网络社会科学,以及具有跨学科创新特性的数字社会科学三个方面。
第一,从社会科学关注的基本问题出发,计算社会科学关注差异化的个体在社会网络中如何产生复杂、有趣的社会现象,这些体形态又如何影响微观行为,以及二者间的双向反馈机制。研究者可以证伪一个基于现实社会问题提出的假设,从而更新社会科学对重大社会问题的认识。如从自由主义者对拿铁的偏爱获得启发,DellaPosta等学者通过建立仿真模型,促进了人们关于刻板印象问题的理解[18]。具体而言,计算社会科学学者试图对经济生活中的个人消费、体利益、政策态势,企业、市场、政府的关系及边界等进行讨论;对网络环境下个人与集体的情感、行为、互动关系及舆论发展进行研究;对公共卫生事件中的个体行为、体网络、政府治理进行因果推断并预测。研究者关注个体
关系的多样性和社的经济发展[19]、社交网络边缘权重的重要性[20]、社交网络的动态性和自适应体智慧[21]等诸多方面。通过利用在线平台数据训练机器学习模型,Dong等学者得以估计城市的人口、公司数量和消费水平等社会经济属性[22]。有研究者将机器学习和卫星图像结合,不仅演示了预测贫困,也展示了在经济数据稀缺情况下研究者关注和改善社会经济方面困境的努力[23]。政治相关议题始终是研究者关注的热点问题,
2021年第2期
基于社交网络的大数据,计算社会科学的研究者能够更好地检验社会理论在现实世界中的解释能力,从而为现实政策的问题和决策提供理论支持。如Bail等学者关注在社交媒体上的政治分化[24];Aral等人通过多层次社会网络建模,研究发现社会传染的嵌入性、结构多样性理论对社会传染效应的精准估计,从而能够更好地为预测社会政策干预的结果提供参考[25]。但有些话题往往容易引起争论,如《自然通讯》杂志2020年发布的一篇论文就因为提出女性导师对师生的学术发展造成损害这一结论而引发广泛讨论[26],最终由于研究数据和方法被质疑而撤稿。值得注意的是,计算社会科学相较于传统社会科学也存在局限性,甚至人类行为是否可计算、在多大程度上可预测仍是一个根本问题,这些伴随而生的讨论也成为计算社会科学关注的问题。
第二,作为一个正在发展完善的学科,计算社会科学诞生于计算机科学技术发展的基础之上,通过算法推动更宏观的网络社会科学的构建。一方面,不同于社会学中传统的量化研究,计算社会科学需要基于特定的平台或项目指标体系设计算法,进一步构建适应研究需要的数据。由于数据规模较大,如何对输入的数据进行复杂的算法处理形成宏观网络,则成为计算社会科学的重要部分。例如,通过空间聚合分析,研究者从15个月内150万人的移动电话数据集中发现,移动通信的个体识别度使个人隐私保护面临新的威胁[27]。机器学习、神经网络、自然语言处理等构建网络的方法也在不断优化,算法和理论呈现相互促进的效果。另一方面,在社会物理学领域,随着小世界模型、无标度网络相关研究的深入展开,近年来关于社交网络的研究成为计算社会科学关注的重点。社交平台体量巨大的文本中包含了丰富的信息,因此自然语言处理近年来也受到越来越多的关注。近期,研究者利用大数据的优势,在传统文本分析方法的基础上通过主题聚类和时间序列分析发现现代文化的进化速度[28],通过词嵌入分析谷歌新闻中对妇女和少数民族的刻板印象和态度的变化[29],以及从微观角度关注个人的音乐使用和情感状况[30]。计算社会科学也促进人们对自然语言处理和量化思维本身的反思,如研究发现将机器学习应用于普通的人类学语言,则会导致语义的偏差[31]。
第三,计算社会科学关注与统计学、人文学科等相关学科结合的跨学科研究。一方面,计算社会科学的学者更倾向于思考人文学科、社会学科在不同的时间、空间结构中的变化。如通过对Twitter平台数百万条公开消息的文本分析,可以发现全球不同文化环境中的个体在日间、每周和季节性的情绪变化
趋势[32]。Liu等学者用大数据模型重建职业历史,从而探究电影导演、艺术家等创造性职业是否存在日渐热门的趋势[33]。另一方面,也有学者关注大数据本身对社会科学研究方法的启发。如利用在线实验进行因果推断[34];通过对实验组施以不同的干预来评估不同影响社会互动的因素及其组合对选举中政治动员的影响[35]。
总体上来看,计算社会科学关注的问题是对传统社会科学的突破,也不同于计算机科学等算法主导的逻辑,其试图通过整合人文社科和计算机科学技术的方式,直面当下的重要社会问题,具有做出重要理论贡献的潜力。
四、大数据
在数字时代,人类创造的各类信息往往以数字化的形式被记录和存储下来。相较于模拟时代的观测数据,大数据体量更大,类型更多样,更新速度更快。大数据的海量性、持续性与不反应性为社会研究开辟了新的路径,可以用来研究稀有事件、接触更广泛的研究样本、发现数据中细微变化产生的影响等。但大数据很容易让研究者陷入对技术的盲目乐观,甚至认为大数据可以取代传统的调查研究。不反应性的数据并不能确保数据就是人们行为或态度的直接反映,梅洛维茨的中台理论早就警示过,人们在媒

本文发布于:2024-09-22 17:33:10,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/719383.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:计算   数据   研究
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议