TIANCHI-全球城市计算挑战赛-完整方案及关键代码分享(季军)
首先很幸运能和杰少、林有夕成为队友,与你们一起比赛真是件无比轻松的事情。同时希望我的分享与总结能给大家带来些许帮助,并且一起交流学习。
实时特征计算平台架构方法论和实践
作者 | 卢冕,第四范式开源机器学习数据库 OpenMLDB PMC core member
AI算法实现与云平台应用
陈迪豪,第四范式先知平台架构师。个人兴趣广泛,在开源社区比较活跃,维护了1600+ star的容器Web管理平台Seagull。大二加入了小米做Android移动端开发,然后有幸学习到后端基础架构技术,参与了HBase、ZooKeeper等社区开发,并且开源了NewSQL依赖的全局严格递增timestamp服务chronos,对分布式存储有一定了解。后来加入云服务创业公司UnitedStack,负责存储、容器、大数据业务,参与了OpenStack、Docker、Ceph等开源项目,在Austin OpenStack Summit上分享了Cinder多后端存储相关的技术,期间也获得了AWS Solution Architect认证。目前从事云深度学习方向,负责深度学习平台的架构和实现,对容器调度系统Kubernetes和深度学习框架TensorFlow有一定了解。
AI算法实现与云平台应用
陈迪豪,第四范式先知平台架构师。个人兴趣广泛,在开源社区比较活跃,维护了1600+ star的容器Web管理平台Seagull。大二加入了小米做Android移动端开发,然后有幸学习到后端基础架构技术,参与了HBase、ZooKeeper等社区开发,并且开源了NewSQL依赖的全局严格递增timestamp服务chronos,对分布式存储有一定了解。后来加入云服务创业公司UnitedStack,负责存储、容器、大数据业务,参与了OpenStack、Docker、Ceph等开源项目,在Austin OpenStack Summit上分享了Cinder多后端存储相关的技术,期间也获得了AWS Solution Architect认证。目前从事云深度学习方向,负责深度学习平台的架构和实现,对容器调度系统Kubernetes和深度学习框架TensorFlow有一定了解。
【Python】60个“特征工程”计算函数(Python代码)
特征工程的问题往往需要具体问题具体分析,当然也有一些暴力的策略,可以在竞赛初赛前期可以带来较大提升,而很多竞赛往往依赖这些信息就可以拿到非常好的效果,剩余的则需要结合业务逻辑以及很多其他的技巧,此处我们将平时用得最多的聚合操作罗列在下方。
边缘计算+奉送20个推荐系统强特
EdgeRec:Recommender System on Edge in Mobile Taobao(CIKM2020)
唐宇迪128集课程一套搞定,PyTorch从入门到实战(附带课程学习资料
向AI转型的程序员都关注了这个号👇👇👇
机器学习AI算法工程 公众号:datayx
。
。
。
。
。
。
。
全部 代码 ,视频,数据集 获取方式:
关注微信公众号 datayx 然后回复 唐宇迪 即可获取。
机器学习算法AI大数据技术
搜索公众号添加: datanlp
长按图片,识别二维码
----
阅读过本文的人还看了以下文章:
TensorFlow 2.0深度学习案例实战
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《基于深度学习的自然
唐宇迪128集课程一套搞定,PyTorch从入门到实战(附带课程学习资料
向AI转型的程序员都关注了这个号👇👇👇
机器学习AI算法工程 公众号:datayx
。
。
。
。
。
。
。
全部 代码 ,视频,数据集 获取方式:
关注微信公众号 datayx 然后回复 唐宇迪 即可获取。
机器学习算法AI大数据技术
搜索公众号添加: datanlp
长按图片,识别二维码
----
阅读过本文的人还看了以下文章:
TensorFlow 2.0深度学习案例实战
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《基于深度学习的自然
开源图书《Python完全自学教程》12.6机器学习案例12.6.1预测船员数量
数据集 cruise.csv 包含了船的吨位、大小、乘客密度、船员数量等特征,业务需要建立一个船员数量与其他相关特征的回归模型,从而能估计船员数量。
【金猿案例展】中国银联:以内外联动的数据竞赛驱动企业数字化转型
伴随着前沿技术的不断成熟和云端迁移的趋势,处于银行卡业务核心枢纽地位的中国银联希望通过打造常规性、延续性、品牌性的数据科学竞赛促进内外协同创新,持续引领金融领域的技术前沿,树立数据驱动的创新标杆。
與情分析系统,包括爬虫、文本摘要、主题分类、情感倾向性识别以及可视化
向AI转型的程序员都关注了这个号👇👇👇
机器学习AI算法工程 公众号:datayx
0. 引言
此项目包括與情分析系统,包括爬虫、数据清洗、文本摘要、主题分类、情感倾向性识别以及分析结果数据可视化。该项目是在校时导师建议的一个边缘研究方向,开题时间 2017 上半年。导师研究的主力方向是网络空间安全,因此在社会工程学上,以当时大火的 AI 领域 NLP (自然语言处理) 为切入口,进行舆情舆论的情感倾向性研究。当时 NLP 的领域还是战国时代,self-attention 还在萌芽,transforme
你睡着了吗?不如起来给你的睡眠分个类吧!
最近的五个月,我花了一些时间来磨练自己的机器学习的技巧,完成的项目来自于一个以提高每个人夜间睡眠质量的法国公司,他们的提出来的一个全新的挑战。我们对睡眠不够重视,现在在我们人口中已经产生了量化的后果。直线下降的表现,注意力缺乏,记忆力紊乱......都是缺乏睡眠时会产生的后果。医学上的解决方案是头上带一个带子,它能在夜晚很活跃地刺激你的脑部,监控你的睡眠,并且提供不同的能让人轻松入睡的项目。如果您非常好奇,想要更深入地研究睡眠在我们生活中真正的重要性,我推荐现在在伯克利加州大学的教授Matthew Walker的《为什么我们需要睡觉?》。这本书在很多方面都让我很吃惊,给读者提供了很多原则和建议,来理解和提高睡眠,因此也影响到了日常生活。
[深度学习] FM & FFM 算法基本原理
在推荐系统和计算广告业务中,点击率CTR(click-through rate)和转化率CVR(conversion rate)是衡量流量转化的两个关键指标。准确的估计CTR、CVR对于提高流量的价值,增加广告及电商收入有重要的指导作用。
实时监控900多家中国企业的新闻动态
📷
向AI转型的程序员都关注了这个号👇👇👇
机器学习AI算法工程 公众号:datayx
此项目可监控近千家中国企业的官方网站的新闻动态,如有更新,系统能在最短2分钟之内通过邮件发送更新的标题和链接。更新的信息流也可通过浏览器查看。监控的公司和站点可以添加删除。
原理:定期抓取网站html, 使用difflib比对新旧页面源码,发现增加的部分,提取url和text,过滤筛选,保存MySQL数据库。定期把更新的url和text,通过邮件发送给订阅者。
全部代码 获取方式:
关注微信公众号 datayx 然
第四章(1.2)机器学习——在web攻击检测中的应用实践
通俗地讲,任何一个的机器学习问题都可以等价于一个寻找合适变换函数的问题。例如语音识别,就是在求取合适的变换函数,将输入的一维时序语音信号变换到语义空间;而近来引发全民关注的围棋人工智能AlphaGo则是将输入的二维布局图像变换到决策空间以决定下一步的最优走法;相应的,人脸识别也是在求取合适的变换函数,将输入的二维人脸图像变换到特征空间,从而唯一确定对应人的身份。
移动腾讯网 | 推荐系统 embedding 技术实践总结
当前主流的推荐系统中,embedding 无处不在,从一定意义上可以说,把 embedding 做好了,整个推荐系统的一个关键难题就攻克了。因此,本文总结了移动腾讯网推荐系统中的 embedding 技术实践,力图达到娱人娱己的目的。
我对安全与NLP的实践和思考
通过对安全与NLP的实践和思考,有以下三点产出。首先,产出一种通用解决方案和轮子,一把梭实现对各种安全场景的安全检测。通用解决方案给出一类安全问题的解决思路,打造轮子来具体解决这一类问题,而不是使用单个技术点去解决单个问题。具体来说,将安全与NLP结合,在各种安全场景中,将其安全数据统一视作文本数据,从NLP视角,统一进行文本预处理、特征化、预训练和模型训练。例如,在Webshell检测中,Webshell文件内容,在恶意软件检测中,API序列,都可以视作长文本数据,使用NLP技术进行分词、向量化、预训练等操作。同理,在Web安全中,SQLi、XSS等URL类安全数据,在DNS安全中,DGA域名、DNS隧道等域名安全数据,同样可以视作短文本数据。因此,只要安全场景中安全数据可以看作单变量文本数据,这种通用解决方案和轮子就适用,轮子开源在我的github仓库FXY中,内置多种通用特征化方法和多种通用深度学习模型,以支持多种安全场景的特征化和模型训练,达到流水线式作业。
关于恶意软件加密流量检测的思考
近年来,随着人们网络安全意识的提升,对于数据保护的意识也越来越强,加密技术在互联网上迅速普及。TLS作为数据包加密的标准协议,现在被各个主要的网站用来保护用户的消息、交易和凭证,但是越来越多的恶意软件也利用TLS加密来隐藏其通信,以绕过传统的检测设备或平台。本文主要围绕恶意软件检测的关键问题进行探讨。