avatar
文章
167
标签
116
分类
94

主页
归档
标签
分类
友链
关于我
搜索
主页
归档
标签
分类
友链
关于我

OCAEN.GZY读书城南

Python数据挖掘——基础知识
发表于2018-11-20|Artificial IntelligenceData Mining
Python数据挖掘——基础知识 数据挖掘又称从数据中 挖掘知识、知识提取、数据/模式分析 即为:从数据中发现知识的过程 1、数据清理 (消除噪声,删除不一致数据) 2、数据集成 (多种数据源 组合在一起) 3、数据选择 (从数据库中提取和分析任务相关的数据) 4、数据变换 (通过汇总或聚焦操作,把数据变换和统一成适合挖掘的形式) 5、数据挖掘 (基本步骤,使用智能化方法提取数据) 6、模式评估 (根据某种兴趣度量,识别代表知识的真正的有趣模式) 7、知识表示 (使用可视化和知识表示技术,向用户提供数据挖掘的知识) 广义:从大量的数据中挖掘有趣模式和知识的过程 数据挖掘的模式: 描述性:描述性挖掘任务刻画目标数据中数据的一般性质 预测性:预测性挖掘任务在当前数据上进行归纳,以便作出预测 数据挖掘功能 离群点分析 特征化与区分 数据特征化 是目标类数据的一般性/特性的汇总 数据区分是将目标数据对象的一般性 与一个/多个对比类对象的一般性进行比较 频繁模式、关联和相关性 频繁模式包括频繁项集、序列模式和频繁子结构 频繁项集挖掘是频繁模式的基础 聚类分析 最大化类内相似 ...
Python数据挖掘——数据预处理
发表于2018-11-20|Artificial IntelligenceData Mining
Python数据挖掘——数据预处理 数据预处理 数据质量 准确性、完整性、一致性、时效性、可信性、可解释性 数据预处理的主要任务 数据清理 数据集成 数据归约 维归约 数值归约 数据变换 规范化 数据离散化 概念分层产生 数据清理(试图填充缺失的值,光滑噪声并识别离群点,纠正数据的不一致) 缺失值 忽略元组 人工填写缺失值 使用一个全局常量填充缺失值 使用属性的中心度量(均值/中位数)填充缺失值 使用与给定元组属于同一类的所有样本的均值/中位数 使用最可能的值 填充缺失值 注:某些情况,缺失值并不代表错误 噪声数据(噪声是被测量的变量的随机误差或方差) 分箱(通过考察数据的近邻,来光滑有序数据值) 用箱均值 用箱中位数 用箱边界 回归 离群点分析(通过聚类来检测离群点) 数据清理化为一个过程 首先进行偏差检测,还要防止字段过载 唯一性规则 连续性规则 空值规则 偏差检测商业工具 数据清洗工具 数据审计工具 数据迁移工具 EIL工具 数据集成 实体识别问题 冗余和相关分析 元组重复 数据值冲突的检测与处理 数据归约 数据变换与数 ...
Python数据挖掘——数据概述
发表于2018-11-19|Artificial IntelligenceData Mining
Python数据挖掘——数据概述 数据集由数据对象组成; 数据的基本统计描述 中心趋势度量 均值 中位数 众数 中列数 数据集的最大值和最小值的平均 度量数据分布 极差 最大值与最小值的差 四分位数 方差 四分位数极差 数据基本统计描述的图形显示 一元分布 分位数图 分位数-分位数图(q-q图) 直方图 二元分布 散点图 数据可视化 1、基于像素的可视化技术 2、几何投影可视化技术 3、基于图符的可视化技术 4、层次可视化技术 度量数据的相似性和相异性 相似 和相异 都称 邻近性 如果不相似,则称 相似性度量为0 About ME 👋 读书城南,🤔 在未来面前,我们都是孩子~ 📙 一个热衷于探索学习新方向、新事物的智能产品经理,闲暇时间喜欢coding💻、画图🎨、音乐🎵、学习ing~ 👋 Social Media 🛠️ Blog: http://oceaneyes.top ⚡ PM导航: https://pmhub.oceangzy.top ☘️ CNBLOG: https://www.cnblogs.com/ocea ...
增长黑客最常见的6大误区
发表于2018-11-04|产品增长产品
增长黑客最常见的6大误区 误区一:“增长黑客和互联网营销没有区别,仅是注重低成本获客“ ​ 增长其实最关注的不是拉新,而是留存,留存的复利效应。 误区二:“增长黑客是灵丹妙药,立刻就能见效” ​ 增长不能临时抱佛脚--缺乏长期积累,实力再雄厚也无法从中受益 误区三:“就算产品很烂,增长黑客也能把它推火” ​ 真正的增长必须基于一个好的产品;如果把增长比作盖房子,那么优秀的产品功能/用户体验就是地基。 ​ 什么样的产品算的上好产品呢? ​ 首先要通过最小可执行产品(MVP)/功能设计(MVD),检测用户对于产品/功能的真实需 求,从而找到产品-市场匹配(P/MF)只有达到PMF的产品,才能算合格的产品;真正的增长其实 是建立在PMF的基础上的。 ​ 如果要维持长期的用户增长,首先必须要有一个好产品。 误区四:“增长黑客就是用一些小伎俩来走捷径” ​ ·所谓的技巧和套路只是推动阶段性爆发的手段,而保持长期上升趋势则是需要依赖科学的战 略和增长流程。 “增长黑客之父”肖恩.埃利斯的增长四步走理论: 掌握基本原理(principles) PMF如何优化; 北极星指标如何制定; AB测试; 数 ...
推荐算法应该谨记的5个原则
发表于2018-11-01|Artificial IntelligenceMachine LearningAlgorithm
行业现象 资讯推荐算法 ​ 本意是帮人们找到可能感兴趣的更多内容 乱象 ​ 不管在专门的资讯推荐 App 还是社交媒体上,垃圾新闻、低俗资讯反而成为主力内容 原因 ​ 投机者们、垃圾内容的制造者们很快找到了推荐算法天然的缺陷,学会如何利用它来迎合人性的弱点,煽 动情绪,刺激欲望 导致 ​ 推荐算法让垃圾内容的制造者占了上风,而真正的内容机构也不得不将自己的内容恶俗化,以迎合推荐 算法。低俗内容越来越多,高品质内容越来越少。 这不是算法的错,算法尽职尽责做了自己的工作,但算法的参数和控制指标需要重置,算法背后的人需要做出改变。 推荐算法需谨记的5个原则 真实性和准确性 ​ 人工干预,区分真假,将人工意见转为标签加入推荐算法内,监控和改进算法,放置算法被滥用。 独立性 ​ 资讯推荐算法是为读者服务的,而不是为商业模式(营销推荐算法则偏向为商业模式),为广告主 ​ 资讯推荐算法容易让那些骗点击的标题党(clickbait)内容和广告凸显出来,正常的内容反而被打压; ​ 目前网络内容最严重的问题——内容的权重,并不是根据内容是否对读者有益来判断的,而是为商业模型服 务的,让人们花更多时间沉 ...
Algorithm入门解读
发表于2018-10-01|Artificial IntelligenceMachine LearningAlgorithm
决策树 根据一些feature特征进行分类 每个节点,根据问题判断,将数据分为两类 随机森林 逻辑回归 Support vector machines 支持向量机 Navie Bayes 朴素贝叶斯 kNN: k-nearest neighbor classification K近邻算法 K均值算法 Adaboost 神经网络 马尔科夫 About ME 👋 读书城南,🤔 在未来面前,我们都是孩子~ 📙 一个热衷于探索学习新方向、新事物的智能产品经理,闲暇时间喜欢coding💻、画图🎨、音乐🎵、学习ing~ 👋 Social Media 🛠️ Blog: http://oceaneyes.top ⚡ PM导航: https://pmhub.oceangzy.top ☘️ CNBLOG: https://www.cnblogs.com/oceaneyes-gzy/ 🌱 AI PRJ自己部署的一些算法demo: http://ai.oceangzy.top/ 📫 Email: 1450136519@qq.com 💬 WeChat: OCEANGZY 💬 ...
推荐系统常用算法
发表于2018-09-01|Artificial IntelligenceMachine LearningAlgorithm
一、基于内容推荐 基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机 器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象 的特征,学习用户的兴趣,考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。 基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏好改变而发生变化。 基于内容推荐方法的优点是: 1)不需要其它用户的数据,没有冷开始问题和稀疏问题。 2)能为具有特殊兴趣爱好的用户进行推荐。 3)能推荐新的或不是很流行的项目,没有新项目问题。 4)通过列出推荐项目的内容特征,可以解释为什么推荐那些项目。 5)已有比较好的技术,如关于分类学习方面的技术已相当成熟。 缺点是要求内容能容易抽取成有意义的特征,要求特征内容有良好的结构性,并且用户的口味必须能够用内容特征形式来表达, ...
数据分析06:matplotlib饼状图
发表于2018-03-02|数据分析Python3Numpy
import numpy as np import matplotlib.pyplot as plt ''' 饼状图显示一个数据系列中各项总和的比例; 饼状图中的数据点显示为整个饼状图的百分比; 如:前十大品牌占市场份额图 ''' # 例 labels = 'A','B','C','D' fracs = [15.0,30.0,45.0,10.0] explode = [0,0.05,0,0.08] plt.axes(aspect=1) plt.pie(x=fracs,labels=labels,autopct="%.0f%%",explode=explode,shadow=True) plt.show() # 练习 labels = 'SH','BJ','SZ','GZ' fracs = [20,30,25,15] explode = [0,0,0.08 ...
数据分析05:matplotlib直方图
发表于2018-03-02|数据分析Python3Matplotlib
import numpy as np import matplotlib.pyplot as plt ''' 由于一系列不等的纵形图组成,表示数据分布的情况 例如:某年级同学的身高分布 需要注意与 柱形图的区别 ''' # # 例 # mu = 100 #均值 # sigma = 20 # 标准差 # # x = mu + sigma * np.random.random(1000) # plt.hist(x,bins=20,density=True) # plt.show() # # # # 双变量图 频率越低越暗 # # x的中心为2 # x = np.random.randn(1000) +2 # # y的中心为3 # y = np.random.randn(1000)+3 # # plt.hist2d(x,y,bins=40) # plt.show() # 练习 ''' 随机生成2000个数据,均值为10, 方差3; 绘制两个直方图, bins = ...
数据分析07:matplotlib箱线图
发表于2018-03-02|数据分析Python3Matplotlib
import numpy as np import matplotlib.pyplot as plt ''' 箱形图(Box-plot)又称为盒须图,盒式图,或 箱线图; 是一种用在显示一组数据分散情况的资料统计图; 上边缘,上四分位数,中位数,下四分位数,下边缘,异常值; ''' np.random.seed(100) data = np.random.normal(size=1000,loc=0,scale=1) # sym 指定异常值的点;whis虚线的长度, 通过调整whis的大小来决定收入异常值的多少 plt.boxplot(data,sym ='o',whis=1.5) plt.show() # 同一张图中显示多个箱线图 # 4组 1000的数据 data = np.random.normal(size=(1000,4),loc = 0,scale=1) # 每组的标签为ABCD labels = ['A','B','C',' ...
1…111213…17
avatar
OCEAN.GZY
少长聚嬉戏,不殊同队鱼。
文章
167
标签
116
分类
94
Follow Me
公告
📙 一个热衷于探索学习新方向、新事物的智能产品经理,闲暇时间喜欢coding💻、画图🎨、音乐🎵、学习ing
最新文章
一些好用的prompt框架2023-06-01
AI产品视角下的ChatGPT2023-03-04
Python设计模式-六大设计原则2022-06-01
Python设计模式-结构型2022-06-01
Python设计模式-行为型2022-06-01
分类
  • Artificial Intelligence45
    • Data Mining4
    • Machine Learning25
      • Algorithm22
        • CV1
        • K-means1
          • DBSCAN1
            • RFM1
标签
k-近邻 K-means item2vec 安全 关联规则算法 后端服务 朴素贝叶斯 seaborn 设计模式 CTR Premiere PyTorch 矩阵分解 NER matplotlib 行业 内容分发 直播 计算广告 产品 WebSocket pandas echarts css NLP 营销 AIGC RNN data visualization 服务端 视频 电商 Deep Learning 内容 决策树 html 内容社区 CentOS 用户画像 数据思维
归档
  • 六月 20231
  • 三月 20231
  • 六月 20224
  • 五月 20228
  • 一月 20222
  • 十一月 20211
  • 八月 20211
  • 六月 20211
网站资讯
文章数目 :
167
本站访客数 :
本站总访问量 :
最后更新时间 :
©2012 - 2026 By OCEAN.GZY
搜索
数据库加载中