SiGMA World
SiGMA Play
即将举行的峰会
Valletta, Malta
11 - 14 Nov 2024
- Best Online Casinos
- Most Popular
- By Country
- Best Betting Sites
- Best Casino Bonuses
- Best Casino Games
- Blog
SiGMA World
SiGMA Play
在上一篇文章中,我们专注于A.I.的动机探索。现在让我们来看看一些你可能熟悉、在现实世界中问题的实际例子,我们将研究问题的类型,并探讨解决这些问题的方法,以及一些常见的陷阱。
在上一次的内容中,或许你还记得,要将人工智能引入业务,其实并不需要一个火箭科学家。
第一步是确定一个商业案例。
也许你有一项重复、耗时的任务。这是一个很好的嗅觉测试机会,确定是否要考虑使用机器学习来解决问题。
问问自己:
瓶颈、成本节约和扩张展挑战,是最适合下手开始研究实施机器学习(ML)算法之处。
然而,人工智能被忽视的用途之一是质量保证。在定量评估方面,人类是非常主观的。我们生来就主观,并将个人的偏见和偏好应用到我们的判断中。
大家可能还记得,我在一篇文章中概述了三个例子,在这些例子中,机器学习可以应用于解决一些很琐碎的问题,比如:
在过去的二十年里,我一直在从事SEO工作,它是有一些机器学习范例应用的好地方。对于熟悉大规模部署SEO的读者来说,无论你在技术或统计方面的知识如何,这将是一个引入概念以帮助自己了解ML基础知识的熟悉环境。但在这篇文章中,我想关注的是玩家获取和营销功能之外的内容。 现在,我想帮助大家在脑海中建立解决ML问题的过程和方法。
过去六年我在探索机器学习的过程中,专注于 “为什么 “而不是 “怎么做”可能是我学到的最有价值的一课。
对于机器学习和人工智能来说,保持对问题的关注比什么都重要,否则会产生一种倾向,走入探索的无底洞,时间长达数周甚至数月。
这个领域广阔且发展得非常快,每当你回过神来,就有新的方法论来更准确地解决问题。同样的,如果你在接触ML时希望保持一种亲身实践的态度,那么,如果在没有先建立一个坚实”为什么”,你很可能会被数学所淹没。
幸运的是,该领域已经非常成熟,有简单易用、高度优化的软件库可以快速实现。所以不需要白费功夫。因此,重要的是:
预测玩家的生命周期价值
侦测问题博弈
现在,我们来简单地看一下「预测生命周期价值」的相关挑战,并对「问题博弈」侦测这个值得注意的例子发展一些更深层次的直觉。
任何问题的解决关键是要先了解问题。所以,现在可能是多介绍一些基础概念的好时机。
一般来说,机器学习中的问题主要有两类:监督型和无监督型。这两种类型或问题都需要训练数据。
监督型机器学习问题:我们的数据是有标签的,以便为我们提供实例集。在早期的电子垃圾邮件检测算法中,这些可能是标记为”spam”的垃圾邮件,以及标记为”ham “的电子邮件。(注:spam午餐肉与ham火腿类似,而spam同时指称垃圾邮件)
无监督机器学习问题:输出数据是未标记或未分类的。在这种情况下,我们使用机器学习算法来帮助组织数据。想象一张用户记录表,我们可能在其中寻找某种相似性甚至是不相似性,或者共同行为。在时间序列数据中,例如网络分析,我们可能会寻找趋势或趋势的变化。
这两种类型的机器学习有无限的应用。这一切都取决于你的数据的性质,还有你想从杂讯中提取的信号。
虽然你可能已经听说过很多关于深度学习和神经网络的事情,但我们现在要远离这种方法。别担心,我们会在未来的文章中谈到深度学习。虽然深度神经网络一般可以提供更好的结果以及统计机器学习,但它们通常很难训练,需要明显更大的数据集,而且结果不容易演绎,使得模型推理变成了黑盒子。
如果你是一个搜索引擎垄断者,正接受一个24亿欧元的反垄断案件审查,那么无法演绎的黑盒对你而言有好处,但如果你正在调试一个 “问题博弈 “分类器,就不是那么好了。对于我们的目的来说,快速解决问题,建立一个准确性的基线才是关键。
它们就是通过魔法来运作,这是我们现在需要知道的 ??
虽然其中一些算法听起来像是来自星际飞船企业号,但大多数机器学习库都非常容易使用,它们通过两三行代码就能实践模型训练和验证(测试)。我说了,这不是火箭科学。
三个基本算法家族如下:
分类:计算一个物品的类别(或类)和分类的置信度(概率)。分类问题是指我们用数据来预测某物属于哪一类的问题。算法:逻辑回归、贝叶斯分类法、支持向量机(SVM)、决策树、随机森林
聚类:将数据分成不同的类,每个类中的数据具有相似性。聚类问题是无监督的,在数据中没有标签,所以我们要根据数据点如何归入组、群或类,用数据来推断标签。算法:K-均值、K最近邻、Mean-shift、层次聚类、DBSCAN
现在我们有了一些基本的基础概念。让我们再次看看下面的问题,更好地理解它们在机器学习方面的问题:
由于我们预测的是玩家价值,也就是一个连续的数字(例如:2330欧元),而不是一个离散的类(例如:猫/狗,spam / ham),这样的问题通常应该被认为是一个 “回归问题”,提供我们足够的数据来推导一个准确的模型。如果数据无法准确预测LTV,另一种方法是利用历史数据,将问题重新思考为分类问题,我们要预测的是类,不管是不是豪客。
看这篇文章的玩家获取人员应该已经发现了 “鸡和蛋 “的问题,也就是ML工程师所说的 “冷启动 “问题。那就是——新玩家没有游戏历史。这引导我们去解决新问题:我们可以从注册数据中了解什么?玩家是否连接了facebook或twitter;我们可以从他们的邮政编码、浏览器类型、设备类型、网络运营商和谷歌的高级用户分析中了解到什么。
在这里,这个问题在我们面前列出了数据丰富、信息检索、人名消歧*,甚至是开源情报(OSINT)**等问题。
* 人名消歧通常被看作是一个无监督的聚类问题,其目的是将一个名字的上下文划分为不同的聚类,每个聚类代表一个真实世界的人。(说白话……给定一个facebook账号和一个邮编,你能准确识别他们的LinkedIn资料吗?)
** 开源情报(OSINT)是一种多方法(定性、定量)的方法论,用于收集、分析和决策可在公开来源中获取的数据,以用于情报工作。(又称数字间谍)
请先别评价我!现在让我们来考虑一下商业案例吧。
注:我并不打算在这个系列中涵盖OSINT和人名消歧,但如果你希望我在未来涵盖这些主题,请发推特给@igamingsummit,让他们知道你感兴趣。
最基本的LTV衡量方法,是使用立基于过去玩家历史平均数的一体化 “catch-all”,最好是按国家划分。
这个 “catch-all “可以提供:
然而,通过一些数据挖掘/数据丰富和一点模型推理,我们能够帮助转换并重新激活。
激活:由于许多在线赌场通过蛮力解决激活问题,像是使用专门、训练有素、人员充足且多语言的呼叫中心。想一想,若能将潜在的高额投注者送到表现最好的呼叫中心资源,这样的商业利益该有多大。即使是规模较小、资源较少的运营商,也能将有限的资源优先用于协助玩家完成第一个存款步骤。
保留:同样,留住或重新激活玩家既是一门科学,也是一门艺术。拥有准确地确定流失玩家数据库中的80/20分布的能力,以及最佳的重新激活策略。现在,我们有了一个强大的动力来留住团队。
记住:我们的目标是确定自动化或半自动化的机会,然后逐步优化。
.现在我们开始思考具体的问题,这与可用数据、商业案例和输出类型相关,让我们看看另一个例子。
由于我来自数字营销(搜索)背景,可以说与iGaming相关的监管和道德问题通常是我最不关心的事情。然而,昨天我刚刚和一位朋友聊天,他问我关于机器学习和 “问题博弈 “检测的问题,让我注意到一些目前正在开拓这个领域的人工智能解决方案。
这是一个有趣的问题,虽然我之前从未考虑过这个问题。我认为,加入一些我自己在处理这个值得考量的挑战上的做法是挺合适的。
从伦理上,这是一个重要的话题,尤其考虑到当前疫情的情况。也许把我的初步想法说出来,可能会刺激人们对这个问题的讨论和进一步探索,并凸显出我预期会出现、一些机器学习模型的相关挑战。
在前面的例子中,我们注意到了 “冷启动 “问题,也就是 “鸡和蛋 “的问题。”冷启动 “问题一般指的是无监督的聚类问题。其中一个例子是推荐引擎(協同過濾)。
为了推断相似行为的聚类,我们首先需要一些用户行为,通过将用户归属到一个给定的聚类,从中推断出喜好的相似性。(白话文:在你至少看了一部电影并进行评分之前,网飞无法推荐电影。你看的电影越多,评分越多,推荐的效果越好。)
从数据的角度来看,有两种类型的问题玩家:
1. 休闲玩家,在你的赌场进行游戏时,随着时间渐渐发展出问题。
2. 一个刚注册就已经有博弈问题的新玩家。
请注意,我们同时面临着商业和道德的挑战。
对于那些随着时间的推移而出现问题的玩家……
数据中的时间线上是否有触发博弈问题的事件(比如中了大奖)?在这种情况下,在玩家把赢来的钱输回庄家时企业在什么时候会乐意将该账户锁定?有没有一个满意的中间值?我们如何权衡商业优先顺序?
算法绝对不能触发假警报,因为问题玩家看起来几乎和高额玩家一模一样,如果把高额玩家的账户封锁了是没有奖赏的。
在我们进一步讨论之前,现在是好时机,思考如何衡量机器学习系统的准确性。
从我们的 “博弈问题 “例子中可以看出,准确率至关重要,假阳性是完全不能接受的。因此,当我们衡量机器学习中的准确性时,我们同时衡量精确率和召回率。
精确率和召回率作为衡量准确度,起源于信息检索和搜索引擎领域,作为评估一组检索文档或搜索结果质量的手段。
精确率是指所有返回的搜索结果列表中相关结果的比例。召回率是指搜索引擎返回的相关结果与可能返回的相关结果总数的比率。
召回率 = 真阳性数量 / 真阳性数量 + 假阴性数量
注:一个不产生假阴性的模型的召回率为1.0。
精确率 = 真阳性数量 / 真阳性数量 + 假阳性数量
注:一个不产生假阳性的模型的精确率为1.0。
F1 值 = 2 * (召回率 * 精确率/ 召回率+ 精确率)
(又称为调和平均值)
更多关于精确率和召回率的信息,请访问谷歌的机器学习速成班
我保证这篇文章中不会再讨论数学了。
有了这些认知,我们继续深入探讨 “问题博弈”。
由于我们是使用统计机器学习而不是深度学习来解决这个问题,所以特定领域的知识很重要。正如我说的,深度学习是以魔法为工作原理。我将在后面的文章中解释为什么,但现在,先相信我。
当你接触一个统计机器学习问题时,领域专业知识是关键。对问题领域的理解为我们提供了直觉,抓出哪些数据对我们的模型(们)很重要。
由于我没有这方面的经验,我向我的朋友请教:来自Pearl Trust的Yara,其专门负责库拉索岛的博弈牌照。她就是第一个让我意识到 “问题博弈 “这件事,以及对人工智能方法的业务需求的人。我想,还有谁能比她更适合请教更多见解呢?
让我们看看她提供的一些额外的洞见:
常见的 “问题博弈 “的迹象包括:
目前的处理方法:
因此,现在我们更加了解 “问题博弈 “处理的内部流程,我们有了可以关注的业务目标。
目标 1:自动生成观察清单并分发给利益攸关方。
目标 2:生成总结数据,纳入报告作为补充。
我们将在下一篇文章中继续进一步详细探讨这个迷人的问题。我们将讨论一些算法,以及其与我们通常要处理的数据的相关特征。在探索这些问题与其他问题的过程中,我们将开始对明显不同的问题类型形成直觉。
如果你有任何具体的想法、考虑、问题以及希望我在未来的文章中回答/涵盖的主题,请发推特到@igamingsummit。
SiGMA集团很高兴地宣布他们11月的活动——SiGMA欧洲虚拟博览会的启动。该在线活动将于24日至25日举行,重点关注欧洲博弈和科技市场。
有关如何赞助此次活动的更多信息,请联系Hamza。寻求演讲机会请与Jeremy联系。若您想要注册参加博览会,请点击这里。