问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

从数字人文视角看“近代中国的精英、网络与权力”

创作时间:
作者:
@小白创作中心

从数字人文视角看“近代中国的精英、网络与权力”

引用
澎湃
1.
https://m.thepaper.cn/newsDetail_forward_26794462

2023年7月至2024年1月,作者赴法国艾克斯-马赛大学亚洲研究中心,参与由著名上海史研究学者安克强教授主持的ENP-China研究团队。该团队在近代中国人物资料数据库建设等方面取得重要进展。本文将介绍ENP-China项目的研究旨趣、运用工具、研究成果等,向读者推介海外中国近代史研究的新动向、新方法与新思想。


ENP-China(Elites, Networks and Power in Modern China)主页

“近代中国的精英、网络与权力”

ENP-China项目全称Elites, Networks and Power in Modern China,意为“近代中国的精英、网络与权力”,受欧洲研究理事会资助。该项目以1830-1949年在上海、广州、天津等城市活动的中国社会精英为研究对象,旨在挑战过往“以国家为中心、以群体为基础”的文献研究法,将城市精英视为社会活动者,其地位、身份及行动等受不断变化的权力结构影响,且通过制度与非正式/正式网络的行动重新定义社会与政治的边界。因此,项目着重关注信息、资本与个体流动的网络,研究精英群体跨国化过程。在具体方法上则突破常规史料的限制,将名人录、人名辞典等复杂来源的信息,转化为精细的、可重复利用与可长期存续的数据,供目前与将来研究使用。该项目依赖可不断扩展的各类历史数据资料,以前所未有的规模提供精确的历史信息,重新塑造基于现有来源,如档案、日记等的史学研究,以期在现代中国精英转型研究中创造新维度。

团队负责人安克强以上海城市史研究著称,著有《1927-1937年的上海:市政权、地方性和现代化》、《镰刀与城市:以上海为例的死亡社会史研究》等。在多年的研究中,他非常注重各类数字工具在史学研究中的运用,曾融合地理信息系统(Geographic Information System, GIS)分析近代上海的公墓分布等问题。近年来,安教授以名人录等为基础材料,运用数字工具,力图建构近代中国社会精英的各类网络。因此,在招募团队成员时,除历史学者外,数据科学家与软件工程师也加入其间,共同开展项目研究。以作者在法期间为例,团队内既有安克强、孟喜等史学工作者,亦有从事数据库建设与维护的工程师Nora Van den Bosch与以人工智能(Artificial Intelligence,AI)和自然语言处理(Natural Language Processing ,NLP)见长的计算机博士Baptiste Blouin。为鼓励年轻学人运用数字工具辅助学位论文写作,团队亦招募具有中国近代史学科背景,具备一定信息技术素养的高年级博士生,提供六个月或一年的工作合同,开展数字工具使用等培训,并加入研究计划。作者即在2023年下半年密集接受程序语言等知识的学习,运用数字人文思维创新论文写作思路。由于团队与台湾“中研院”近史所深度合作,因此连玲玲等近史所研究人员亦有协助。此外,团队亦吸纳一些欧盟内其他高校的语言学家、计算机工程师等参与其间,协同开展资料库建设等工作。

数字工具与研究成果

ENP-China的关注群体为近代中国的各类社会精英,包括但不限于归国留学生、商人、绅衿等,其信息来源为Who’s who in China等名人辞典,因此如何有效率地提取大量个人信息,如其性别、籍贯、学经历等,并在此基础上建立可相互关联、不断延伸的信息网络,成为关键的先导工作。为此,团队将R Studio作为中心工具:其为程序语言R的操作平台,由法国数字人文开放平台Huma-Num托管,用于统计计算与图形呈现。由于其免费属性及社区成员不断为该语言开发各类功能包,因而备受研究者青睐。目前,通过R Studio中的各类功能包,如tidyverse等,可实现文字段落的自动分词、数据导出、可视化、数据建模等多种功能。具体而言,人名录及其他语料库(corpus,指具有一定格式的大量文本)中的各类命名实体,如姓名、年龄、字号、出生地名等,可运用特定功能包(如分词包),将其从文本中分离并分类建表,最终依此建立基于某一参数的网络,如同乡网络等。

基于R Studio平台,团队目前开发出两大可视化运用平台:HistText与MCBD。

HistText最早为Jeremy Auguste博士等开发的R Studio功能包,后经Baptiste Blouin博士的完善,成为易于操作的可视化平台,可实现在特定语料库(如《申报》、《东方杂志》等)中搜索关键字,随之生成新的语料库后,对此进行自然语言处理,实现如关键词云形成、人名、地名、机构名等命名实体(Named Entities)的识别与提取、搜索关键词年度分布表的建立等功能,为之后开展主题建模等工作提供基础资料。

MCBD全称Modern China Biographical Database,即近代中国人物传记数据库。该库与“中研院”近史所合作开发,旨在通过系统化的数据挖掘,收集在中国活跃的任何个人,包括中国人及在华外国人的传记数据。这些数据可以来自各种来源,如目录、传记词典、名人录等,报纸和期刊,以及学术文献。使用该库检索相关个人信息时,可随之查阅与其生平经历相关的其他个人,如同乡、同学等,从而为历史人物的研究探索出一条新路。


MCBD界面

目前,ENP-China团队的研究成果集中收录于2022年经Brill出版社出版,由安克强、孟喜与孙慧敏主编的《Knowledge, Power, and Networks. Elites in Transition in Modern China》一书。该书收录了9篇基于自然语言处理等数字技术,分析特定历史问题,如上海扶轮社、在沪英国妇女协会等社团成员组成与活动情况的专题论文。上述论文的作者在将大量人物信息运用R Studio等工具进行筛选、清洗、整理后,主要运用主题建模(Topic Modeling)、社交网络分析(Social Network Analysis, SNA)等分析模型,建构近代中国精英之中形成的各类网络,以探索精英社团的形成、发展与活动等问题。

必须指出的是,运用自然语言处理对文本进行信息提取等工作,仍有不尽如人意之处。由于经过光学字符识别(Optical Character Recognition, OCR)形成的语料库,其往往存在大量错误,加之程序语言只能对特定文本格式中的信息提取精度较高,常无法覆盖格式之外的有效信息,因而经提取后的相关数据,如姓名、生卒年等,必须进行数据清洗(Data Cleaning)。该过程通常较为耗时,且需充分掌握相关史实后方能加以甄别,因而需要一定人工力量介入。并且,若语料库的规模过小,也往往造成经软件分析得出的结果,与经常规阅读而得出的结论相差无几的现象。因而在实际操作的过程中,运用自然语言处理技术对文本信息加以提取、筛选等工作,仍有一些掣肘。

尽管如此,由于软件处理较之人工阅读,提取成规模史料(如1872-1949年《申报》的全部内容)中的相关信息,仍在工作效率等方面存在极为明显的优势,因而在中国近代史研究中有广阔的应用前景。特别是针对晚清民国精英人物的研究方面,由于其人数多、信息庞杂、各类正式或非正式网络多样,既有研究常建立在以中心人物为圆心的小规模社会网络之基础上,可能有“管中窥豹”之虞。不过,若使用自然语言处理技术,从海量数据中提取精英人物的基本信息并筛选、建模,较之传统的人工提取、校对、建表,有极为明显的效率优势。数据量的大大提升,也为特定研究领域(如民国知识人交流网络)中建立以籍贯、学经历、仕途等关系串联的大规模社交网络创造可能,从而依此产生一些颠覆式的研究成果。我们相信,伴随着语料库数量与质量的不断提高,加上数字工具的不断迭代演进,以网络分析为立足点的近代中国人物研究将方兴未艾,成为史学研究的一条颇值得尝试的新途。

本文原文来自澎湃新闻

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号