基于文本分析的人物画像技术研究 - 以知乎大V为例 - 图文

由天下分享时间：2024/11/25 7:06:42 加入收藏我要投稿点赞

Software Engineering and Applications 软件工程与应用, 2024, 9(3), 201-215 Published Online June 2024 in Hans. http://www.hanspub.org/journal/sea https://doi.org/10.12677/sea.2024.93024

Research on Character Portrait Technology Based on Text Analysis

—Taking the Influencer as an Example

Lu Zhang, Yu Chen, Jiaxin Jing, Jinglun Cai

University of International Relations, Beijing

strdth

Received: May 21, 2024; accepted: Jun. 3, 2024; published: Jun. 10, 2024

Abstract

Social media high-impact users combine unique content, the commercial value of their own topics, and efficient traffic monetization capabilities. Constructing portraits of high-impact characters can directly display the typical characteristics of group personnel, which plays an important role in expanding the radiating power of excellent network culture, providing accurate services to the platform, maintaining core users, and supervising public opinion. Taking influencer as an example, we use Python to acquire and process user behavior data, construct user portrait conceptual mod-els from multiple dimensions of influencer, use tools such as “WordCloud”, “Mapplotlib”, and “Pyecharts” to visualize and develop Empirical Research. The experimental results show that in-fluencer is mainly divided into two categories. Taking randomly selected domains as typical rep-resentatives, we obtain typical portraits of different high-impact users. According to the key group characteristics of users and their fans, it shows that the user portrait model can bring tremendous application value in the aspects of personalized service, recommendation system and precision marketing of social platforms.

Keywords

High Impact Users, Text Analysis, Figure Portrait, Zhihu

基于文本分析的人物画像技术研究

——以知乎大V为例

张璐，陈宇，景嘉欣，蔡京伦

国际关系学院，北京

文章引用: 张璐, 陈宇, 景嘉欣, 蔡京伦. 基于文本分析的人物画像技术研究[J]. 软件工程与应用, 2024, 9(3): 201-215. DOI: 10.12677/sea.2024.93024

张璐等

收稿日期：2024年5月21日；录用日期：2024年6月3日；发布日期：2024年6月10日

摘要

社交媒体高影响力用户集独特的内容、自带话题的商业价值以及高效的流量变现能力于一体。构建高影响力人物画像，可以直观展示群体人员的典型特征，对扩大优秀网络文化的辐射力以及对平台提供精准服务、维系核心用户、监管引导舆情等具有重要作用。我们以知乎大V为例，利用Python获取和处理用户行为数据，从知乎大V多个维度构建用户画像概念模型，用“WordCloud”、“Mapplotlib”以及“Pyecharts”等工具进行可视化，开展实证研究。实验结果表明知乎大V主要分为两大类，以随机选取的领域大V作为典型代表，得到不同高影响力用户的典型人物画像，依据用户及其粉丝的关键群体特征属性，表明用户画像模型可以在社交平台的个性化服务、推荐系统、精准营销等方面带来巨大的应用价值。

关键词

高影响力用户，文本分析，人物画像，知乎

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). http://creativecommons.org/licenses/by/4.0/

Open Access 1. 引言

(一) 研究背景

凯度最新向全球发布的《2024年媒介趋势与预测报告》(2024 Media Trends & Predictions Report)指出，明年整个行业将遇到“数字化悖论”1。报告表示，为走出这种困局，营销人需要理解消费者对于更相关、更个人化内容的需求，但与此同时不能破坏它对品牌的信任，也不能侵犯消费者隐私[1]。在此背景下，高影响力用户作为信息传播的关键群体，其观点及言论深刻影响其他用户的思维方式，加速社交网络信息传播、增强用户间有效的交互活动。同时，粉丝经济催生高影响力用户实现其经济价值与社会价值。因此，对高影响力用户构建人物画像，识别其典型特征及潜在需求，对扩大优秀网络文化的辐射力和感染力及平台提供精准服务、维系核心用户、监管引导舆情等至关重要。然而，凯度的研究显示，消费者对于“个性化”概念的反应正在变得两极化2。报告认为，个性化定制的信息不应被当作完成销售的捷径，而是长期策略的基础——用来获得消费者的信任，增加对品牌的忠诚度。

(二) 研究对象

本文以网络问答社区知乎的高影响力用户作为研究对象，通过对高影响力用户及其粉丝群体画像，试图了解高影响力用户内部的数据特征，并解决如何有效进行知乎数据挖掘的问题，进而扩展知乎数据挖掘在商业情报，社会研究，舆情研究等领域的应用。知乎是近年来新兴的以分享彼此的专业知识和经验见解为理念，以保持严谨、理性的社区氛围为特征的网络问答社区。知乎是网络问答社区，连接各行

1数字化悖论：一方面层出不穷的新媒体渠道似乎都能带来新的机遇；另一方面数字媒介渠道数量过多，触及消费者的可能性反而下降了。 2

两极化：有45%的人表示向自己精准投放的广告比其他广告更有趣，同时也有超过半数的(54%)人反对根据自己过往的网络行为向自己投放广告。

DOI: 10.12677/sea.2024.93024

202

软件工程与应用

张璐等

各业的用户。用户分享着彼此的知识、经验和见解，为中文互联网源源不断地提供多种多样的信息。截至2024年11月底，用户数破2.2亿，其问题数超过3000万，回答数超过1.3亿3。知乎在问答社区基础上融入社交元素，建立了全新的内容创造与传播机制，其高质量的社区内容己逐渐成为互联网用户获取知识的重要途径。从这些指标可以判断，知乎己经是国内在线问答社区的标杆，而其中高影响力用户庞大的粉丝群体，以及高质量的回答更对知乎平台有举足轻重的意义，庞大的信息资源和活跃用户的积累是本文选择知乎为研究对象的原因。

(二) 研究目的及意义 1) 研究目的

本文将用户画像的理念应用到社交媒体高影响力用户群体的分析，将传统的单一高影响力用户追踪转变为对群体的抽象概括，以用户与粉丝双方的信任机制为支撑，人格、内容、流量分别对应用户基本信息、行为、价值属性，融合多维属性构建高影响力人物画像可视化模型。

2) 研究意义

社交媒体高影响力用户集独特的内容能力、魅力的人格化特征、自带话题的势能价值及高效的流量变现能力于一体。构建高影响力人物画像，直观展示群体人员典型特征，对扩大优秀网络文化的辐射力和感染力及平台提供精准服务、维系核心用户、监管引导舆情等具有重要作用。

3) 研究方法

研究思路：收集文本数据，数据分析，按照符合人类情感的方向描摹用户画像。

具体方法：在使用Scrapy爬虫收集知乎内部数据库文本数据的基础上，对文本数据进行清洗，再将清洗后的数据进行数据集成，规约，使用jieba分词将文本切分为成词词语。然后使用Python下的snowNLP类库对词库进行情感分析得出正负样本，利用新的数据得出情感分类模型。再采用Python自带的工具pyecharts、matplotlib帮助我们做数据的可视化处理，探究该用户群体的心理情感特征和用户行为。通过横向对比数据项建立5个维度的用户画像模型，从而得出高质量用户画像。

2. 相关概念及基础理论

(一) 大V

大V，又称意见领袖或舆论领袖，是指在人际传播网络中经常为他人提供信息，同时对他人施加影响的“活跃分子”，他们在大众传播效果的形成过程中起着重要的中介或过滤的作用，由他们将信息扩散给受众，形成信息传递的两级传播[2]。

新媒体时代下，大V成为互联网时代创意的跨界整合，集独特的内容能力、魅力的人格化特征、自带话题的势能价值及高效的流量变现能力于一体，创造平台红利与人格红利。而高影响力用户通过发布、转发及评论等行为展示独特的内容生成能力及魅力的人格化特征，影响其他用户的观点，并使其自发地产生互动行为[3]，以社交营销等方式实现流量变现。

(二) 人物画像

人物画像通常有两种理解。一种叫做Persona，也叫做用户角色，是描绘抽象一个自然人的属性；一种叫做Profile，是和数据挖掘、大数据息息相关的应用[4]。而本文所讨论的是后者，通过数据建立描绘用户的标签。随着互联网的发展和信息的快速更新，传统的线下交流模式已无法满足用户多元化、个性化的知识需求和专业性、及时性的服务需求，以知乎、豆瓣、简书等为代表的社交类学术移动应用程序已成为科研用户获取知识资源、进行学术交流的新途径。

3该数据来源于2024年12月13日的知乎官方。截至2024年11月底，用户数破2.2亿，同比增长102%。据此前数据，2017年底，知乎注册用户达到1.2亿，2024年8月底，知乎用户突破2亿。

DOI: 10.12677/sea.2024.93024

203

软件工程与应用

张璐等

用户画像(UserProfile)，即用户信息的标签化，是建立在一系列数据之上的目标用户模型。是根据用户基本属性、社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型[5]。构建用户画像的核心工作即是给用户贴“标签”，而标签是通过对用户信息分析而来的高度精炼的特征标识。用户画像的意义在于了解用户，预测用户的真实需求和潜在需求，精细化地定位人群特征，挖掘潜在的用户群体，为媒体网站、广告主、企业及广告公司提供群体用户的差异化特征。用户画像在精准营销、移动用户行为研究、搜索引擎以及个人信息管理方面都有很多应用。用户画像的应用对社会化问答社区的发展也具有重要的意义[6]。

3. 数据预处理

数据预处理环节有利于提高大数据的一致性、准确性、真实性、可用性、完整性、安全性和价值性等方面质量，而大数据预处理中的相关技术是影响大数据过程质量的关键因素[7]。

(一) 数据获取

本文以知乎为研究样本，使用爬虫Scrapy从PC端爬取用户数据。随机选取2024年3月15日至2024年3月20日间不同热门类别的高影响力用户作为数据样本，涉及文化、艺术设计、影视三个类别。采集了3个高影响力用户的相关信息，合计12,954名用户的数据记录。获取了高影响力用户(下文用“大V”代替)的公开信息，如用户的粉丝数量、关注数量、每日的回答、关注话题、提问的关键字、提问记录数以及收到赞同、收藏或者感谢的数量等。

(二) 数据清洗

数据集涵盖了大V的公开信息，数据清洗是构造画像标签的基础。数据清洗与处理单元主要负责将原始和基础数据预处理为后续分析所需的数据，主要包括以下几个内容：

1) 缺失值清洗：确定缺失值范围；去除不需要的字段；填充缺失内容；重新取值。

2) 格式内容清洗：时间、日期、数值、全半角等显示格式不一致；内容中有不该存在的字符；内容与该字段应有内容不符。

3) 逻辑错误清洗：去重(重复的用户ID)；去除不合理值、修正矛盾内容，例如粉丝个人描述信息不符合实际(年龄失真，个性签名存在歧义，存疑僵尸粉丝等等)。

4) 非需求数据清洗：提取文本时删除无关干扰字眼，例如微博，微信，微信号(与研究主题产生干扰，污染数据)，关注者，无关数字，粉丝等。

(三) 数据处理

将清洗后的数据分词，然后进行数据集成，从而形成集中、统一的数据库，有利于提高大数据的完整性、一致性、安全性和可用性等方面质量。然后对集成后的数据进行归约，即在不损害分析结果准确性的前提下降低数据集规模，运用数据抽样技术对其进行简化，这一过程有利于提高大数据的价值密度，即提高大数据存储的价值性[8]。我们将数据集整理为16个数据项，以便于后续构建和分析人物画像。

Table 1. High-impact user data items 表1. 知乎高影响力用户数据项

编号 a1 a2 a3 a4

CPM维度

B B P P

数据名称用户ID 研究领域提问数目回答问题数目

注释

用户唯一标识符，为用户属性信息，可直接获取。

用户注册时选择的学科分类和研究方向，为用户属性信息，可直接获取。用户提问的数目，与积极程度正相关，可直接获取。用户回答的数目，与积极程度正相关，可直接获取。

DOI: 10.12677/sea.2024.93024

204

软件工程与应用

张璐等

Continued

a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16

I I I D D D D F F F F F

用户被赞总数用户粉丝数目用户关注数目用户所关注者的个性签名情感分析(图表) 用户所关注者的研究领

域(词云) 用户回答问题的情感分

析(图表) 用户回答问题(词云) 粉丝VIP比例(图表) 粉丝男女比例(图表) 粉丝关注数量分布(图表) 粉丝问题回答数量分布

(图表)

粉丝画像(词云)

用户回答被点赞的数目之和，与影响力正相关，可直接获取。用户的粉丝数量，与影响力正相关，可直接获取。用户关注的人数量，与互动程度相关，可直接获取。

用户所关注者个性签名分词之后的情感分析可视化图表，与偏好方向相关，通过爬虫获取。

用户所关注者注册时选择的学科分类和研究方向，与偏好方向相关，通过爬虫获取。

用户所回答问题的题干分词之后的情感分析可视化图表，用于判断用户的情感积极消极程度，与偏好方向相关，通过爬虫获取。

用户所回答问题的题干分词之后的关键词词云，用于归纳用户回答问题的特征，与偏好方向相关，通过爬虫获取。

用户粉丝的VIP占比，属于粉丝群体特征，通过爬虫获取。用户粉丝的性别，为粉丝属性信息，通过爬虫获取。粉丝关注人数，判断粉丝专一程度，通过爬虫获取。粉丝在平台回答的次数，判断粉丝活跃度，通过爬虫获取。

粉丝个人简介，为用户属性信息，用于归纳粉丝群体特征，通过爬虫获取。

知乎的内容输出主要依靠大V回答的问题以及发布的文章，知乎大V以其高质量的内容输出著称。任何用户都可以在知乎注册，通过提出问题、回答问题、发表文章等参与学术交流。知乎的所有网络行为，例如注册、发布、点赞、感谢、收藏、浏览记录、评论、关注、私信、订阅专栏等，都被平台记录下来，本文将该记录称之为用户行为数据。用户行为数据越丰富，越能精确刻画用户特征。为了开展实证研究，本文采集到16个数据项，涵盖了用户及其粉丝的主要行为数据(见表1)。

其中a1~a2是用户的基本信息(Basic Information，下文简写为B)，a3~a4反映了用户使用平台的积极性(Positivity，下文简写为P)，a5则从互动方面反映了大V的影响力情况(Influence，下文简写为I)，a7~a10可以提取描述主题偏好的方向(Preferred direction，下文简写为D)，a11~a15通过对比粉丝的画像体现了大V的粉丝群体特点(Fan characteristics，下文简写为F)。为了利用这些数据对高影响力用户进行画像，本文提出了5个维度的用户画像模型(Character portrait model，下文简写为CPM)，即CPM = {B, P, I, D, F}。

4. 数据分析

(一) 词频统计

我们将上文集成和归约后的数据集进行词频统计，为下文可视化做基础工作。 (二) 情感分析

我们对用户回答的问题进行了情感分析，判断相比较之下是积极还是消极。我们借助Python的工具“SnowNLP”来进行情感分析，0表示消极，1表示积极，根据0~1之间的占比及其分布，可以大致概括用户关注话题的正面与负面情况。

(三) 数据可视化

数据可视化，我们采用了Python自带的工具pyecharts、matplotlib帮助我们做数据的可视化处理，让我们采集的数据以一个更加直观的方式呈现。

我们从多个维度生成了这些用户的可视化模型。下面以知乎大V苏菲为例展示部分维度统计模型及数据解析。

DOI: 10.12677/sea.2024.93024

205

软件工程与应用