资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

基于机器学习的人格预测：通过可视化研究人格数据

创作时间:

作者:

@小白创作中心

基于机器学习的人格预测：通过可视化研究人格数据

引用

来源

https://www.cnblogs.com/ai168/p/18713523

在当今数据驱动的时代，机器学习不仅在技术领域大放异彩，更在心理学领域展现出独特魅力。本文将带领读者深入探索如何运用机器学习技术，基于社交媒体数据预测个体的人格类型。我们将以MBTI（Myers-Briggs Type Indicator）人格类型系统为切入点，通过数据集分析、可视化研究，揭示社交媒体行为与人格特征之间的潜在关联。

项目背景与数据集介绍

MBTI人格类型系统简介

迈尔斯-布里格斯类型指标（简称MBTI）是一个广泛流行的人格类型系统，它根据四个维度将人划分为16种不同的人格类型：

内向（I） – 外向（E）
直觉（N） – 感觉（S）
思维（T） – 情感（F）
判断（J） – 感知（P）

例如，一个偏好内向、直觉、思维和感知的人在MBTI系统中会被标记为INTP。MBTI基于卡尔·荣格的认知功能理论，尽管近年来其科学性和有效性受到质疑，但仍在多个领域被广泛应用。

数据集内容与来源

本项目使用的数据集包含超过8600行数据，每行数据包括：

类型（该人的4字母MBTI代码/类型）
他们最近发布的50篇文章的每个部分（每个条目用“|||”分隔）

数据集来源于PersonalityCafe论坛，该论坛提供了大量人群及其MBTI个性类型和所写内容的数据。

数据集的基本用途

使用机器学习评估MBTI的有效性和其在线预测语言风格和行为的能力。
开发一个机器学习算法，尝试根据某人所写的一些文本确定其个性类型。

数据分析与可视化

数据读取与预处理

首先，我们需要导入必要的Python库：

import pandas as pd  # 用于数据处理和分析
import numpy as np   # 用于数值计算
import seaborn as sns # 用于绘制统计图表
import matplotlib.pyplot as plt  # 用于绘图

然后，读取CSV文件并查看前五行数据：

df = pd.read_csv('../input/mbti_1.csv')  # 读取 CSV 文件
df.head()  # 显示数据的前五行

特征工程

定义一个函数来计算每条评论的词数方差：

def var_row(row):
    l = []  # 初始化一个空列表，用于存储每条评论的词数
    for i in row.split('|||'):  # 将帖子内容按 '|||' 分隔成每条评论
        l.append(len(i.split()))  # 计算每条评论的词数，并添加到列表中
    return np.var(l)  # 返回列表中词数的方差

计算每条评论的平均词数和词数方差：

df['words_per_comment'] = df['posts'].apply(lambda x: len(x.split())/50)  # 计算每条评论的平均词数
df['variance_of_word_counts'] = df['posts'].apply(lambda x: var_row(x))  # 计算每条评论的词数方差
df.head()  # 显示数据的前五行

可视化分析

绘制不同类型用户的每条评论平均词数的swarmplot图：

plt.figure(figsize=(15,10))  # 设置绘图窗口的大小
sns.swarmplot("type", "words_per_comment", data=df)  # 绘制 swarmplot 图

统计每种类型的用户数量：

df.groupby('type').agg({'type':'count'})  # 按 'type' 列分组，统计每种类型的用户数量

筛选掉特定类型用户并计算每条评论中的HTTP链接数和问号数：

df_2 = df[~df['type'].isin(['ESFJ','ESFP','ESTJ','ESTP'])]  # 筛选掉 'ESFJ', 'ESFP', 'ESTJ', 'ESTP' 这几种类型的用户
df_2['http_per_comment'] = df_2['posts'].apply(lambda x: x.count('http')/50)  # 计算每条评论中的 HTTP 链接数
df_2['qm_per_comment'] = df_2['posts'].apply(lambda x: x.count('?')/50)  # 计算每条评论中的问号数
df_2.head()  # 显示筛选后的数据的前五行

计算每种类型的用户每条评论中的平均HTTP链接数和问号数：

print(df_2.groupby('type').agg({'http_per_comment': 'mean'}))  # 按 'type' 列分组，计算每种类型的用户每条评论中的平均 HTTP 链接数
print(df_2.groupby('type').agg({'qm_per_comment': 'mean'}))  # 按 'type' 列分组，计算每种类型的用户每条评论中的平均问号数

绘制不同类型用户的词数方差与每条评论平均词数的联合分布图：

plt.figure(figsize=(15,10))  # 设置绘图窗口的大小
sns.jointplot("variance_of_word_counts", "words_per_comment", data=df_2, kind="hex")  # 绘制 hexbin 联合分布图

定义一个函数来绘制不同类型用户的联合分布图：

def plot_jointplot(mbti_type, axs, titles):
    df_3 = df_2[df_2['type'] == mbti_type]  # 筛选指定类型的用户
    sns.jointplot("variance_of_word_counts", "words_per_comment", data=df_3, kind="hex", ax=axs, title=titles)  # 绘制 hexbin 联合分布图

绘制所有类型用户的联合分布图：

i = df_2['type'].unique()  # 获取所有不同的用户类型
k = 0  # 初始化计数器
for m in range(0,2):  # 外层循环，控制行数
    for n in range(0,6):  # 内层循环，控制列数
        df_3 = df_2[df_2['type'] == i[k]]  # 筛选指定类型的用户
        sns.jointplot("variance_of_word_counts", "words_per_comment", data=df_3, kind="hex")  # 绘制 hexbin 联合分布图
        plt.title(i[k])  # 设置子图的标题为用户类型
        k += 1  # 更新计数器

绘制不同类型用户的词云图：

from scipy.misc import imread  # 从 scipy.misc 模块导入 imread 函数
from wordcloud import WordCloud, STOPWORDS  # 从 wordcloud 模块导入 WordCloud 和 STOPWORDS 类
fig, ax = plt.subplots(len(df['type'].unique()), sharex=True, figsize=(15,10*len(df['type'].unique())))  # 创建多个子图
k = 0  # 初始化计数器
for i in df['type'].unique():  # 遍历所有不同的用户类型
    df_4 = df[df['type'] == i]  # 筛选指定类型的用户
    wordcloud = WordCloud().generate(df_4['posts'].to_string())  # 生成词云图
    ax[k].imshow(wordcloud)  # 显示词云图
    ax[k].set_title(i)  # 设置子图的标题为用户类型
    ax[k].axis("off")  # 关闭坐标轴
    k += 1  # 更新计数器