python – 通过关注者排名在推文中查找主题的好算法？

Python 2019-05-16

我是数据挖掘和实验的新手.

假设我有N个推特用户和我想找的东西
是他们写的总体主题(基于推文).
然后,如果该用户拥有更高的粉丝,我想为每个主题赋予更高的权重.

然后我想合并所有主题,如果有足够的相似但仍然
通过推特计数保留权重.

所以基本上是按权限排名的“重要”主题列表(用户的推特数量)

例如,像news.google.com,但排名将基于负责主题的Twitter粉丝.

我更喜欢python中的一些东西,因为那是我最熟悉的语言.

有任何想法吗？

谢谢

编辑：
这是我正在尝试做的一个很好的例子(但是有差异数据)
http://www.facebook.com/notes/facebook-data-team/whats-on-your-mind/477517358858

基本上分析各种数据及其相互关系：工作类别和每个人的年龄或单词类别和朋友数量,如本例所示.

我将在哪里开始解决这个问题并生成这样的图表？

最佳答案

一般来说：R有一些专门针对文本挖掘和数据挖掘的软件包,提供了广泛的技术.我不知道Python中的那种软件包,但这并不意味着它们不存在.我只是不会自己实现它,它比第一眼看上去要复杂一点.

你需要考虑的一些事情：

>定义“主题”：这是他们使用的标签吗？你是否对标签进行分组你有一个有限集的小名单,或者是无限制的集合？
>定义“一般主题”：这是最常用的主题吗？你是如何处理关系的？如果用户写了大约10个主题,那么呢？
>定义“权重”：这相当于用户数量？平方根？有些类别？

如果您对此有一个大致的了解,可以开始使用tm package以可行的格式提取所有信息.该包基于矩阵和元数据对象.这些允许您获得不同主题的加权频率,前提是您已定义了您认为的主题.您还可以使用不同的加权函数来获得所需的内容.手册是here.但如果您不确定自己在做什么,也请访问crossvalidated.com 获取额外的指导.这实际上是关于数据挖掘的问题而不是关于编程的问题.

algorithm algorithm

爬虫实战：探索XPath爬虫技巧之热榜新闻

在这篇文章中，我们深入学习了XPath作为一种常见的网络爬虫技巧。XPath是一种用于定位和选择XML文档中特...

谁说后端不能画出美丽的动图？让我来给大家拜个年！

祝福大家龙年快乐！愿你们的生活像龙一样充满力量和勇气，愿你们在新的一年里，追逐梦想，勇往直前，不...

爬虫实战：从网页到本地，如何轻松实现小说离线阅读

今天在爬虫实战中，除了正常爬取网页数据外，我们还添加了一个下载功能，主要任务是爬取小说并将其下载...

爬虫实战+数据分析：全国消费支出分析及未来预测

完美收官，本文是爬虫实战的最后一章了，所以尽管本文着重呈现爬虫实战，但其中有一大部分内容专注于数...

Java开发者的Python进修指南：JSON利器之官方json库、demjson和orjson的实用指南

JSON是一种流行的数据传输格式，Python中有多种处理JSON的方式。官方的json库是最常用的，它提供了简单...

Java开发者的Python快速进修指南：掌握T检验

独立样本T检验适用于比较两组独立样本的均值差异，而配对T检验则适用于比较同一组样本在不同条件下的均...

python – 通过关注者排名在推文中查找主题的好算法？

相关文章