哈佛 CBDB API 接口快速入门指南社会关系数据挖掘实战

? 认识哈佛 CBDB：社会关系数据的宝藏库

刚接触哈佛 CBDB 的朋友可能会好奇，到底什么是 CBDB？简单说，它就是哈佛中国历史数据库（China Biographical Database）的缩写，专门收录从秦汉到清末的中国历史人物数据。这里面的信息可太丰富了，每个人物记录平均有 30 多个字段，像姓名、生卒年、籍贯、官职、著作这些都有，更厉害的是，它详细记录了人物之间的社会关系，比如亲属关系、师生关系、同事关系等等，足足有超过 100 万条关系数据。

对于搞历史研究、社会网络分析，或者做数据挖掘的人来说，这简直就是个宝藏库。通过它的 API 接口，我们能轻松获取这些数据，然后进行各种分析。比如说，你想研究某个朝代的家族网络，看看哪些家族之间有联姻，哪些官员有师生关系，用 CBDB 的数据就能轻松实现。

? 准备工作：开启 API 之旅的第一步

注册获取 API 密钥

要使用 CBDB API，首先得去官网注册一个账号。打开哈佛 CBDB 的官方网站（https://gdm.fas.harvard.edu/cbdb/），找到注册入口，按照提示填写邮箱、用户名、密码等信息。注册成功后，登录账号，进入个人中心，就能看到 API 密钥了。这个密钥很重要，就像一把钥匙，之后调用 API 的时候都需要它，一定要保存好。

安装必要的库

接下来，我们需要在 Python 环境中安装几个必要的库。首先是requests库，它用于发送 HTTP 请求，获取 API 返回的数据。安装方法很简单，在命令行里输入pip install requests就行。另外，为了方便处理数据，我们还需要安装pandas库，用于数据清洗和分析，同样在命令行输入pip install pandas。如果后续需要进行可视化，还可以安装matplotlib或者seaborn库，不过这一步可以根据自己的需求来决定。

了解 API 基本结构

CBDB API 的端点主要有几个，常用的比如获取人物基本信息的端点是/api/person，获取社会关系的端点是/api/relation。每个端点都有不同的参数，比如person_id可以指定获取某个具体人物的信息，relation_type可以指定获取某种类型的社会关系，像 “亲属”“师生” 等。我们可以通过官方文档详细了解每个端点的参数和返回格式，这样在调用的时候才能得心应手。

? 基础调用：从 API 获取数据其实很简单

简单获取单个人物信息

现在，我们来试试用 API 获取单个人物的信息。假设我们知道一个人物的 ID 是 1000，想要获取他的基本信息，就可以使用requests库发送一个 GET 请求。代码大概是这样的：

python

import requests

api_key = '你的API密钥'
person_id = 
url = f'https://gdm.fas.harvard.edu/cbdb/api/person/{person_id}?key={api_key}'

response = requests.get(url)
data = response.json()

print(data)

运行这段代码，就能得到这个人物的详细信息，包括姓名、性别、生卒年、籍贯、官职等。返回的数据是 JSON 格式的，我们可以很方便地解析和提取需要的信息。

获取特定类型的社会关系

如果我们想获取某个人物的社会关系，比如他的亲属关系，就可以使用/api/relation端点。假设人物 ID 是 1000，关系类型是 “亲属”，代码可以这样写：

python

relation_type = '亲属'
url = f'https://gdm.fas.harvard.edu/cbdb/api/relation?key={api_key}&person_id={person_id}&relation_type={relation_type}'

response = requests.get(url)
relations = response.json()

for relation in relations:
    print(relation)

这样就能得到该人物所有的亲属关系数据，包括相关人物的 ID、姓名以及关系的具体描述。通过调整relation_type参数，我们可以获取不同类型的社会关系，比如师生关系、同事关系等。

批量获取数据

有时候我们需要批量获取多个人物的信息或者多个关系数据，这时候可以通过循环或者构建包含多个 ID 的参数来实现。比如，我们有一个人物 ID 列表person_ids = [1000, 1001, 1002]，想要获取这些人物的信息，可以在循环中依次调用 API：

python

for pid in person_ids:
    url = f'https://gdm.fas.harvard.edu/cbdb/api/person/{pid}?key={api_key}'
    response = requests.get(url)
    data = response.json()
    # 处理每个人物的数据

不过要注意，API 可能会有调用频率限制，不要过于频繁地发送请求，以免被限制访问。

? 数据处理：让原始数据变 “干净” 又好用

解析 JSON 数据

从 API 获取到的数据是 JSON 格式的，虽然包含了丰富的信息，但有时候结构比较复杂，需要我们进行解析。比如，人物信息中可能包含多个字段，有些字段的值是列表或者字典，我们需要提取出我们需要的具体信息。可以使用 Python 中的字典操作来提取，比如data['name']获取人物姓名，data['birth_year']获取出生年份等。

处理缺失值

在数据中，可能会存在一些缺失值，比如某个人物的生卒年没有记录，或者某个关系的相关人物信息不完整。这时候我们需要根据具体情况进行处理。如果是重要的信息缺失，可能需要在分析时排除这些数据；如果是不太重要的，可以用默认值或者标记为未知。比如，对于生卒年缺失的人物，可以标记为 “未知”，在后续分析中注意区分。

数据清洗与转换

有时候数据中的格式可能不符合我们的需求，比如日期格式不一致，或者人物姓名有不同的写法。这时候需要进行数据清洗和转换。比如，将出生年份统一转换为整数类型，将人物姓名统一为标准写法。另外，对于社会关系数据，可能需要将关系类型进行标准化，比如将 “父亲”“母亲” 统一归类为 “亲属” 关系中的具体子类。

存储为 DataFrame

处理好的数据可以存储为pandas的 DataFrame 格式，这样方便后续的分析和操作。比如，将人物信息存储为一个 DataFrame，每一行代表一个人物，每一列代表一个字段；将社会关系数据存储为另一个 DataFrame，每一行代表一个关系，包含两个相关人物的 ID、姓名和关系类型等信息。通过 DataFrame，我们可以方便地进行数据筛选、排序、合并等操作。

? 实战案例：用社会关系数据挖掘背后的故事

案例一：挖掘古代家族的联姻网络

假设我们想研究某个朝代的一个大家族，比如王氏家族，看看他们通过联姻和哪些其他家族建立了联系。首先，我们需要获取王氏家族中所有人物的 ID，这可以通过搜索家族姓氏和籍贯等信息来获取。然后，获取这些人物的亲属关系数据，筛选出关系类型为 “配偶” 的记录，这样就能得到该家族成员的配偶信息，进而确定联姻的家族。

通过分析这些联姻数据，我们可以绘制出家族的联姻网络图，看看哪些家族之间联姻次数最多，联姻的双方在官职、地域上有什么特点。比如，可能会发现王氏家族主要和本地的几个官宦家族联姻，通过联姻巩固了家族在当地的地位。

案例二：分析学术网络中的师徒传承

我们还可以研究学术网络中的师徒关系，看看某个学派的传承脉络。比如，以宋代的理学学派为例，我们可以获取该学派代表人物的 ID，然后获取他们的师生关系数据，筛选出关系类型为 “师徒” 的记录。这样就能得到每个学者的老师和学生，构建出一个学术传承的网络。

通过分析这个网络，我们可以找出学派中的核心人物，看看他们的学生分布情况，以及学术思想是如何传播的。比如，可能会发现某个核心学者有很多知名的学生，这些学生又各自培养了自己的学生，使得该学派的影响力不断扩大。

案例三：探索官场中的同事关系网络

对于官场中的同事关系，我们可以获取同一时期、同一官职的人物信息，然后获取他们之间的同事关系数据。比如，研究某个朝代的内阁成员，看看他们之间的合作和互动情况。通过分析同事关系网络，可以找出在官场中处于核心位置的人物，他们可能与很多人有同事关系，对政策的制定和执行有重要影响。

同时，还可以结合人物的官职变动情况，看看同事关系是否对他们的职业生涯有影响，比如是否有同事推荐晋升的情况等。

❓ 常见问题：遇到这些情况别慌

API 调用失败怎么办？

如果 API 调用失败，首先检查网络连接是否正常，然后查看错误信息。常见的错误可能是 API 密钥错误、参数不正确或者调用频率过高。如果是 API 密钥错误，重新检查密钥是否正确；如果是参数不正确，仔细核对官方文档中的参数要求；如果是调用频率过高，等待一段时间后再尝试调用。

数据量太大处理不过来怎么办？

当数据量很大时，可能会遇到内存不足的问题。这时候可以采用分块处理的方法，比如使用pandas的read_json函数分块读取数据，或者在获取数据时进行分页处理，每次获取一部分数据，处理完后再获取下一部分。另外，也可以考虑使用数据库来存储和管理大量数据，提高数据处理效率。

不知道如何选择合适的分析方法怎么办？

对于社会关系数据，常用的分析方法有社会网络分析（SNA），可以使用专门的库如networkx来构建和分析网络图，计算中心性、聚类系数等指标。如果是初学者，可以先从简单的统计分析开始，比如统计不同关系类型的数量、分布情况，然后再逐步深入学习复杂的分析方法。可以参考相关的教程和案例，看看别人是如何分析类似数据的。

数据中的关系描述不清晰怎么办？

有时候数据中的关系描述可能比较模糊，比如只写了 “亲属”，但没有具体说明是父子还是兄弟关系。这时候可以结合人物的生卒年、性别等信息进行推断，比如如果两个人物年龄相差较大，且性别不同，可能是父女关系；如果年龄相近，性别相同，可能是兄弟关系。如果实在无法推断，也可以在分析时注明关系的不确定性。

? 总结：开启社会关系数据挖掘的大门

通过哈佛 CBDB API，我们能够轻松获取丰富的历史人物社会关系数据，然后通过数据处理和分析，挖掘出背后的故事和规律。从认识 CBDB 到准备工作，再到基础调用、数据处理和实战案例，每一步都需要我们认真对待，遇到问题不要慌，按照常见问题的解决方法一步步来。

希望这篇指南能帮助你快速入门哈佛 CBDB API 的使用，在社会关系数据挖掘的道路上迈出坚实的一步。无论是历史研究、学术分析还是其他领域的应用，CBDB 的数据都能为你提供丰富的资源，让你发现更多有趣的现象和有价值的信息。

【该文章由dudu123.com嘟嘟 ai 导航整理，嘟嘟 AI 导航汇集全网优质网址资源和最新优质 AI 工具】

哈佛 CBDB API 接口快速入门指南社会关系数据挖掘实战

? 认识哈佛 CBDB：社会关系数据的宝藏库

? 准备工作：开启 API 之旅的第一步

注册获取 API 密钥

安装必要的库

了解 API 基本结构

? 基础调用：从 API 获取数据其实很简单

简单获取单个人物信息

获取特定类型的社会关系

批量获取数据

? 数据处理：让原始数据变 “干净” 又好用

解析 JSON 数据

处理缺失值

数据清洗与转换

存储为 DataFrame

? 实战案例：用社会关系数据挖掘背后的故事

案例一：挖掘古代家族的联姻网络

案例二：分析学术网络中的师徒传承

案例三：探索官场中的同事关系网络

❓ 常见问题：遇到这些情况别慌

API 调用失败怎么办？

数据量太大处理不过来怎么办？

不知道如何选择合适的分析方法怎么办？

数据中的关系描述不清晰怎么办？

? 总结：开启社会关系数据挖掘的大门

相关文章

壹伴公众号编辑器值得付费吗？一个真实用户的深度体验报告

论文降重技巧：从入门到精通｜如何巧用免费网站降重

美剧台词 PDF 下载去哪找？英文台词社汇聚超 5.4 万部电影、11 万集美剧台词，中英文搜索 + 按难度分级助学习！

2025 升级！可旋转 3D 模型与动态光影素材助力设计师创作

AI内容检测免费工具有哪些？为什么我最终选择了付费的第五AI？ - AI创作资讯

AI写作如何进行事实核查？确保头条文章信息准确，避免误导读者 - AI创作资讯

10w+阅读量爆文案例拆解分析：高手都从这5个维度入手 - AI创作资讯

现在做公众号是不是太晚了？2025年依然值得投入的3个理由与运营策略 - AI创作资讯

AI写小说能赚钱？普通人如何利用AI生成器开启副业之路 - AI创作资讯

情感故事公众号的涨粉核心：持续输出能引发共鸣的价值观 - AI创作资讯

ChatGPT Prompt指令模板库｜专为高原创度文章设计｜DeepSeek用户也能用 - AI创作资讯

朱雀 AI 检测抗绕过方法：2025 最新技术解析与实测对比 - AI创作资讯

2025 公众号运营趋势：私域流量下的写作工具选择 - AI创作资讯

免费又好用的论文AI检测软件|和知网AI查重结果对比分析 - AI创作资讯