热词排序算法——贝叶斯均值法

2024-06-23 1213阅读

热词排序算法——贝叶斯均值法

贝叶斯均值法

基本思想
假设变量
举例说明

python实现

贝叶斯均值法

当前（例如今天）的某个词出现的频率相比于历史发生突增，那么这个词的热度上升。

当某个词历史出现的次数为0，而当前出现的次数为100，另一个词历史出现的频率为100，

今日出现的频率为200，虽然同增长100，但明显第一个词是0到1的一个增长，显然比第二个词更重要。

基本思想

假设所有案例都至少有m次曝光（设置一个基准），那么就都具备了同等的一个评选条件；
然后假设这m次曝光的评分是所有案例的平均得分（即假设这个案例具有平均水准） m v + m C \frac{m}{v+m}C v+mmC；

最后，用现有的评分进行修正，长期来看，v/(v+m)这部分的权重将越来越大，得分将慢慢接近真实情况。

W R = v v + m R + m v + m C WR = \frac{v}{v+m}R+\frac{m}{v+m}C WR=v+mvR+v+mmC

v : 代表该案例的实际观看量；

m : 代表最低的一个观看量（人工干预设置，可根据实际观看情况而定，平均值等等）；

R : 该案例的平均得分;

C : 所有案例的平均得分。

假设变量

1、将单个词语的得分设置为 R ( w ) R(w) R(w)设置为 A t p ( w ) A t p ( w ) + B t p ( w ) = A t p ( w ) T p S u m ( w ) \frac{Atp(w)}{Atp(w)+Btp(w)}=\frac{Atp(w)}{TpSum(w)} Atp(w)+Btp(w)Atp(w)=TpSum(w)Atp(w)

在这里也可以采用牛顿冷却法设置得分值 N θ ( w ) = − l n 当前词频历史词频 / 时间差 N_\theta(w) = -ln\frac{当前词频}{历史词频}/时间差 Nθ(w)=−ln历史词频当前词频/时间差

2、将人工干预设置设置为 m = a v g T p S u m ( w ) = T p A v g m =avg\ TpSum(w) = TpAvg m=avg TpSum(w)=TpAvg

3、将所有词元的平均得分设置为 C = a v g R ( w ) C=avg\ R(w) C=avg R(w)

则贝叶斯均值排名为：

W R = A t p ( w ) A t p ( w ) + T p A v g R ( w ) + T p A v g A t p ( w ) + T p A v g C WR=\frac{Atp(w)}{Atp(w)+TpAvg}R(w)+\frac{TpAvg}{Atp(w)+TpAvg}C WR=Atp(w)+TpAvgAtp(w)R(w)+Atp(w)+TpAvgTpAvgC

举例说明

词组	历史词频/Btp(w)	当前词频/Atp(w)	词频和/TpSum(w)	得分/R(w)	WR
六合彩	1106	1702	2808	0.606	0.56385
修正	1106	100	1206	0.0829	0.45900
下横线	10	200	210	0.952	0.56848
线性回归	400	200	600	0.333	0.49580
无穷小	200	200	400	0.500	0.46902
			TpAvg	C
Avg			1044.8	0.495

W R = A t p ( w ) A t p ( w ) + T p A v g R ( w ) + T p A v g A t p ( w ) + T p A v g C WR=\frac{Atp(w)}{Atp(w)+TpAvg}R(w)+\frac{TpAvg}{Atp(w)+TpAvg}C WR=Atp(w)+TpAvgAtp(w)R(w)+Atp(w)+TpAvgTpAvgC

python实现

新建一个测试集

from collections import Counter
import pandas as pd
test_df = pd.DataFrame(
    (
        [["六合彩", "2024-01-20"] for i in range(1106)]
        + [["六合彩", "2024-01-21"] for i in range(1702)]
        + [["修正", "2024-01-20"] for i in range(1106)]
        + [["修正", "2024-01-21"] for i in range(100)]
        + [["下横线", "2024-01-20"] for i in range(10)]
        + [["下横线", "2024-01-21"] for i in range(200)]
        + [["线性回归", "2024-01-20"] for i in range(400)]
        + [["线性回归", "2024-01-21"] for i in range(200)]
        + [["无穷小", "2024-01-20"] for i in range(200)]
        + [["无穷小", "2024-01-21"] for i in range(200)]
    )
)
test_df

编写算法

def bayes_avrage_rank(df: pd.DataFrame, base_time: str) -> pd.DataFrame:
    """
    贝叶斯平均法排名算法
    :param df:初始数据格式为 [词元，时间]
    :param base_time: 设置分割时间
    :return: 计算结果
    """
    columns = list(df.columns)
    conditions = df[columns[1]] > base_time
    # 在截止时间前后获取历史词元和当前词元计算Apt和Bpt
    apt = pd.DataFrame(
        Counter(df[conditions][columns[0]]).most_common(), columns=["word", "Atp"]
    )
    bpt = pd.DataFrame(
        Counter(df[~conditions][columns[0]]).most_common(), columns=["word", "Btp"]
    )
    df_pt = pd.merge(bpt, apt, how="outer", on="word")
    df_pt = df_pt.fillna(0)
    # 计算得分R(w)
    df_pt["TpSum"] = df_pt["Atp"] + df_pt["Btp"]
    df_pt["R"] = df_pt["Atp"] / df_pt["TpSum"]
    df_pt = df_pt.fillna(0)
    # 计算 m 和 C
    tp_avg = df_pt["TpSum"].mean()
    r_avg = df_pt["R"].mean()
    # 贝叶斯平均公式
    wr = df_pt["Atp"] * df_pt["R"] / (df_pt["Atp"] + tp_avg) + tp_avg * r_avg / (
        df_pt["Atp"] + tp_avg
    )
    df_pt["wr"] = wr
    return df_pt
bayes_avrage_rank(test_df, "2024-01-20")

有兴趣可以自行替换牛顿冷却法。

VPS购买请点击我

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们，邮箱：ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!