新工科 课程 《你好,旧时光》文本挖掘分析
课程封面
《你好,旧时光》文本挖掘分析
大数据 微专业
《你好,旧时光》(又名:玛丽苏病例报告)是青春文学作家八月长安所作的青春小说。小说讲述了出生在八十年代末的普通小姑娘余周周同年与妈妈相依为命,中学经历诸多波折急速成长的故事。小说引发了读者对大学前学生时代的很多共鸣,行行句句,倾注了作者对青春和对自己的剖析。

小说改编的同名电视剧《你好,旧时光》日前正在热播,由于原著作者“振华三部曲”的《最好的我们》改编电视剧之前备受好评,原著党们也对《你好,旧时光》电视剧的播出报以极大的期待。然而,电视剧播出以来,对于原著剧情大刀阔斧的改编受到了原著党的质疑,其中对于余周周的初中生活被一带而过,部分人物的删减与出场变动等质疑声不绝于耳。随着电视剧的播出进度,该剧的质疑声逐渐减小,小说原著的影视化评价逐渐受到好评,豆瓣评分高达8.5分,有网友甚至评价:论什么是抽象又高级地尊重原著!

对于小说原著内容与电视剧改编作品的区别,我们运用文本挖掘方法对《你好,旧时光》原著本进行分析,探究文本及人物行为之间的关系。
实验列表
  • step1
    实验环境准备
    学会搭建python环境,安装python常用包
    查看详情
  • step2
    数据准备
    读取《你好,旧时光》原著的文本数据,由于txt文本采用\n\n进行分段,将每段作为数据框中的每行数据,共读入8995条文本数据,删除book表中的空数据。 将下载的停用词词典逐行读入,添加小说常见用语至停用词列表。
    查看详情
  • step3
    文本分词与词云
    利用正则化规则删除文本中的标点,去除停用词列表中的停用词,加载自定义的分词词典,利用jieba分词对每段文本进行分词,得到原著分词结果。
    查看详情
  • step4
    关系网络探索
    从百度百科下载主要人物表,由于人物名称存在昵称、别名,对同人不同名进行统一替换。由于小说段落较短,同段之间出现的人物可以视为有较强关联,通过计算同段之间两人共同出现的次数得出人物关系权重,对权重进行归一化。
    查看详情
  • step5
    聚类分析
    章节文档分词、根据分词结果计算tf-idf,得到语料库的词向量矩阵、计算文档间的余弦相似度、利用K-Means算法、Ward算法进行聚类分析、用MDS\PCA可视化展示聚类结果
    查看详情
  • step6
    LDA主题模型
    通过对聚类的结果进行LDA主题探索。 本文使用gensim模块进行建立LDA主题模型 gensim模块中的corpora.Dictionary可以为单词进行编码、函数doc2bow()对文档的词频进行统计, dictionary.filter_extremes()函数对极端出现的词进行过滤 models.LdaModel进行。
    查看详情

如果您想对我们的产品和服务更进一步了解
请用下面的方式和我们联系

电子邮箱:business@yundaxue.org(会在1个工作日之内和您接洽)

联系电话:400-828-1210(周一至周五 9:00-18:00 )