有关大数据工作和计划及收获一
i、负责hadoop集群的安装部署、维护及调优:
2、负责spark的安装邮署、维护及调优:
3、负责基于大数据平台开发的应用系统的部署、日常维护、调优和问题处理
4、负责elk 平台的部署及维护。
技能要求:
1 、2年以上大数据运维工仵经验;
2、熟悉hadoop生态圈技术栈及各个组件原理:
⒊、熟练掌握hdfs、hive、hbase、sρark、sqooρ 等组件,具备部署、维护、调优的能力:
4、热悉kylin技术原理,有一定的维护经验优先:
5、掌掇elk的日常维护技能·有一定的维护.经验优先:
6、有一定的hql/sql 性能调优经验;
7、具备基本的 java、python等语言开发能力优先:
8、有较强的沟通、团队协作及学习能力。
有关大数据工作和计划及收获二
职责:
1、负责公司大数据产品的架构设计,包含数据收集、数据存储、数据应用,并完成相关架构设计文档的撰写;
2、参与规划从数据源到数据应用的整体流程,并参与相关产品的决策;
3、负责解决核心技术问题,对技术方案进行决策;
4、负责大数据研发团队建设、人才梯队培养和技术团队管理;
5、积极了解业界发展,研究与跟踪大数据新技术发展方向。
任职要求:
1、精通goldengate for bigdata相关理论,具备大型数据利用的生产实战经验;
2、精通数据驱动的理论,设计并生产上线相关数据驱动的产品;
3、精通常用消息中间件的使用,例如kafka/rocketmq/apache pulsar,有解读相关源码者优先;
4、掌握hadoop、spark生态体系相关产品的使用,掌握mapreduce编程或spark编程;
5、了解传统数据仓库理论及相关etl工具,例如kettle/datastage;
6、熟悉oracle、mongodb、mysql数据库的使用;
7、扎实的java语言基础,熟悉java开发工具和调试工具的使用;
8、良好的团队协作精神,有能力对团队在软件设计、实现和测试方面进行指导;
9、良好的逻辑分析能力和沟通能力,执行力强、对待工作认真严谨、责任心强、具备出色的学习能力和团队合作精神,有一定的推动能力;
10、计算机科学、信息技术或相关领域本科以上学历,具有5年以上数据平台项目开发经验,3年以上的架构设计经验,具有大数据平台应用大型项目架构设计经验优先;
有关大数据工作和计划及收获三
职责:
1)负责公司软件产品整体架构的设计和关键功能实现
2)负责公司架构长期看护以及优化;
3)负责软件部门各模组间的协调配合;
4)提高巩固软件代码质量;
5)负责大数据流式框架的设计、优化及部署;
6)规划研发部门员工的技术发展路线并提供必要的帮助和指导
任职资格:
1)本科及以上学历,计算机相关专业,5年以上工作经验;
2)频繁换工作,比如一年一个公司,请绕路;
3)3年以上产品架构经验,主导过产品的成功上线;
4)对底层设备通讯协议,b/s系统,手机app开发等都有一定的了解;
5)对各种主流语言c#\java\pathon有一定的了解
5)精通各种大数据架构,并深入研究过其中一种,有storm\kafka等流式实时处理经验为佳
6)能够承担较强的工作压力,有良好的自我驱动能力和责任感;
7)具备优秀的逻辑思维能力、表达能力、沟通协调能力。
有关大数据工作和计划及收获四
职责:
1、负责hadoop、hbase、hive、spark等大数据平台 规划、部署、监控、系统优化等,确保高可用;
2、负责公司大数据平台的运维管理工作,集群容量规划、扩容及性能优化;
3、处理公司大数据平台各类异常和故障,确保系统平台的稳定运行;
4、设计实现大规模分布式集群的运维、监控和管理平台;
5、深入研究大数据业务相关运维技术,持续优化集群服务架构,探索新的大数据运维技及发展方向。
任职要求:
1、熟悉hadoop/hbase/hive/spark/kafka/zookeeper等开源项目的安装与调试,升级扩容;
2、熟悉hadoop大数据生态圈,包括但不限于hdfs、yarn、hive、hbase、spark、kafka、flume等;
3、精通一门以上脚本语言(shell/perl/python等),熟练掌握linux系统及常规命令与工具,熟练的shell脚本编写能力。
有关大数据工作和计划及收获五
职责:
1、负责spark, hadoop, flink等开发和优化。
2、参与前期需求沟通和分析,以产品化开发的思维,完成需求分解和数据架构设计。
3、与研发和数据科学家合作保证产品定义清晰,按时完成产品上线。
4、能够洞察市场状况,与各部门合作转化为基于大数据挖掘的新策略或方案.
5、主动创造和发掘新的基于大数据挖掘产品商业模式.
任职要求:
1、全日制本科及以上学历,计算机软件相关专业,5年以上开发经验,3年以上架构经验
2、精通hadoop/mapreduce/spark/hbase/flink/hive/r/mahout等分布式数据存储和分布式计算平台原理,流式计算开发,有开源二次开发经验者优先。
3、精通大数据挖掘、机器学习.熟练掌握java/perl/python至少一种编程语言。
4、具有数据挖掘和分析、机器学习等项目实施相关经验者优先;
5、良好的跨部门沟通合作能力,解决不同观点能力并取得结果。具备敏锐的互联网产品理解力,学习能力和逻辑思维能力强;
6、较强的自我驱动力、推动和协调能力,强烈的责任心和团队合作精神;
有关大数据工作和计划及收获六
大数据模式下的精准营销
于大部份营销者来说,网站再定向(onsite retargeting)是其中一个最重要的营销手段,所谓网站再定向的意思是对曾访问您网站的用户进行宣传,在他们浏览网络时向其展示广告。此手段之所以重要是因为在第一次接触中真正转化为购买的只占2%,而没有产生购买就离开网站的人群体高达98%。网站再定向的威力在于它能够帮助你吸引很多的潜在客户,由于这些用户之前已经访问了您的网站一次,这意味着他们确实对您的产品和服务感兴趣。当你不断向这些用户显示相关的广告,将能够吸引他们回访并完成购买。理论上,网站再定向技术听起来完美,但执行起来,却可能让很多广告主走入死胡同,因为它只能够覆盖到旧有的访客,而无法接触新访客。对于广告主来说,网站再定向是一把双刃刀,它虽然能带来绝佳的roi,却由于覆盖度不足,会在无形中扼杀销售机会。
其实无论是广告数据或购买行为数据,网络都能记录下来,而网络的实时记录特性,让它成为当下广告主实现定位营销的不二之选。随着技术不断革新,广告主精细化定位的需求也不断得到满足。在随后的篇幅中,我们会简单地对比几大定位技术,并通过电商案例分析来讨论如何让这些数据技术协同起来,促成客户从浏览广告到掏钱购买的转化,实现广告主的收益最大化。
网络营销的精细化定位潜力只有在大数据的支持下才能完全发挥出来。图中的数据金字塔划分出了数据的四个层级。最底层是广告表现数据,是关于广告位置和其表现的信息。具体而言,就是广告位的尺寸、在网页的位置、以往的点击率、可见曝光(viewable impreion)等指标。
再上一层就是受众分类数据。如今,市场上的数据提供商可以通过用户的线上和线下的行为,来收集到广告受众的兴趣、需求等数据。这些不会涉及个人真实身份的信息会被分析,并划分为不同的群組,例如性价比追求者、网购达人等。有了受众分类数据,广告主可以在互联网上按自己的需求和品牌的特性来投放。受众分类数据的针对性更强,也能带来比单纯依赖广告表现数据更好的点击率与转换率,因为它提供了消费者行为和偏好等宝贵信息。
第三层是搜索动机数据。搜索再定向是个用于发掘新客户的技术。它的出现让我们能够发掘出那些很可能会购物的用户,因为他们已经开始搜索与广告主产品相关的信息了。那些具有高商业价值的数据可以进一步被筛选出来,广告主可以将具有高购买意愿的人们再定向到自己的产品信息上来。
而位居数据金字塔顶端的是站内客户数据,这指的是用户在广告主网站上的用户行为数据,包括了用户浏览的页面,下载的信息,以及加入购物车的商品等数据。网站用户通常是那些已经了解过品牌并且对公司也熟悉的一群人。
对于广告主来说,金字塔四层的数据都独具价值。举例而言,广告表现数据是每个广告主都首先会关注的信息,因为这些信息在大多数广告管理平台和广告交易平台都能轻易获得的。同时,那些与用户需求和偏好相关的数据,能够助力广告主更好地实现精细化营销。因此,要想针对性地影响消费者购买路径的每个过程,我们就需要把这四层的数据分析整合,才能制定一个更全面的营销方案。
以下,我们将分享一个真实的案例,让广告主明白应当如何打通各层数据,制定覆盖消费者购买路径的精准定位的营销方案。
案例分享
背景:爱点击的客户,国内最知名的电子商务网站之一,希望能提高roi(投资回报率)和线上交易数量
挑战:客户已经使用了网站再定向技术来实现一个较好的roi,但是,从再站内定向所带动的交易数量开始有下降的趋势。
优化策略︰利用多重数据的整合,提升转化漏斗每一阶段的人群数目,以提升总转化量
第一步:网站再定向
广告主会发现网站内再定向带来的购买转化量有限,这是因为大部份广告主只会再定向曾经将商品加入购物车的访客。要想提升网站再定向的效果,最优的方法是根据用户浏览过的页面进行属性分类,并呈现具有针对性的内容。具体参考下图:
有了全面的追踪和分类,再定向受众数量的基数大幅增加。在短短两个星期内,交易数量显着提升,尤其是来自老访客的成交量更是大幅提升44%。
第二步:搜索再定向(search retargeting)及购买第三方受众分类数据
一方面,再定向可以有效地召回老访客,增大重复进入网站及购买的可能性。但同时,广告主还应该考虑怎么能增加新访客,以保证转化漏斗有足够的新增流量。
首先,我们利用搜索关键词捕捉有兴趣的用户,然后储存有关的用户数据,最后,在交易平台上将合适的广告呈现给该用户。此外,我们还会关注第三方受众分类数据中那些有着同样行为特征的用户信息,整合在一起进行精准投放。
在进行搜索再定向及购买受众数据后,新客户所带来的成交大幅度上升254%,广告效果花费cpa下降29%,同时增加该网站整体的浏览量。
第三步:利用机器学习(machine learning)进一步扩大客户的数量
用户来进行定位广告投放。xmo的算法可以对比客户的crm消费者数据与第三方受众数据,并预测出哪些网络用户会有特定的购买倾向。在这个案例中,xmo能通过机器学习来不断产生新的受众,平均每周能够细分出一个有着230万样本的人群。通过将广告投放到我们已有的目标受众群和由机器学习锁定的新目标受众,我们可以看到非常喜人的广告效果,虽然cpa轻微上升14%,但新客户成交量大幅增长26%说明了机器学习能有效地为广告主发掘新客户。
什么是机器学习(machine learning)? (摘自维基百科wikipedia) 机器学习是人工智能的核心,根据数据或以往的经验,通过设计算法来模拟背后机制和预测行为,并获取新的数据。这是一个重新组织已有的知识结构使之不断改善自身性能的过程。研究者可以
通过机器学习来抓取现有数据的特征来预测未知的概率分布,找到新的具有相同特征的数据并加入库中。机器学习中最关键的就是开发出能智能识别复杂模式并能智能化决策的算法。
观点总结
多渠道数据的整合可以在两方面帮助广告主提高广告表现。
首先,此举可以增加广告受众总数,并会为广告主赢得源源不断的访问量。第二,多渠道数据整合后的定向还能促进消费者购买漏斗的每一个过程,广告主通常利用网站再定向技术来召回“购物车放弃者”或者流失的老客户,但实际上,广告主应该把注意力放在现有客户和新客户的比例。 总而言之,从搜索动机数据,到受眾分类数据,到最终的机器学习,都能促进购买漏斗的顶端访客数量的增加。结合上创意的策略定制、精准的位置选择,客户的转化率将会提高,广告主也将挖掘出更多的商机。
有关大数据工作和计划及收获七
职责:
1、负责公司大数据平台自动化运维开发、监控和优化工作,保障数据平台服务的稳定性和可用性;
2、负责公司hadoop核心技术组件日常运维工作 ;
3、负责公司大数据平台现场故障处理和排查工作;
4、研究大数据前沿技术,改进现有系统的服务和运维架构,提升系统可靠性和可运维性;
任职要求:
1、本科或以上学历,计算机、软件工程等相关专业,3年以上相关从业经验
2、精通linux运维命令,熟悉linux的维护和管理,熟悉shell/python脚本开发,掌握scala/java优先;
3、熟悉大数据项目实施:包括不限于kafka、hadoop、hive、hbase、spark等大数据生态的平台搭建,监控和调优;
4、良好团队精神服务意识,沟通协调能力;
有关大数据工作和计划及收获八
高校教育大数据的分析挖掘与利用
摘 要,本文从高校教育大数据的汇聚融合与挖掘应用的角度,分析了如何运用教育大数据技术推动大学管理和人才培养的创新改革的思路和方法。首先,分析了教育大数据对高校现代化、精细化、规范化管理的4个价值,其次,给出了高等教育大数据技术平台的基本技术架构,第三,结合教育大数据实际应用,介绍了陕西省高等教育质量监管大数据中心、mooc中国、西安交通大学教学质量综合监控与评价三个典型案例,最后,提出了教育大数据分析挖掘中的3项基础性关键技术
关键词,高等教育,大数据,分析,挖掘
高校大数据分析挖掘至少有四个典型价值, 一是使得大学的管理更加精准高效,可以朝着智慧治理、分类管理、过程监控、趋势预测、风险预警的方向发展,真正实现基于大数据分析规律的精准治理,改变管理的模糊性, 二是可以更加准确地分析评价课堂教学的质量,过去我们对课堂、对老师的评价是定性和模糊的,而在大数据智慧课堂的模式下,可以真正实现采集样本的持久化,采集方式
的多元化,挖掘手段的多样化,分析技术多维度,通过这些方式可以提高课堂教学的质量, 三是使得教和学更加智慧,更加有效。对学生来说,老师可以了解学生学习的进展情况,发现学习兴趣点,以及对老师讲的哪些内容理解或者不理解,学习路径分析及课程推荐等等。对教师而言,不仅可以跨校跨地域分享他人的优秀课程,而且可以对学习者进行精准分类,进行个性化指导, 四是资源服务的个性化、精准化推荐与服务,学习绩效的个性化评价,以及个性化教学管理,个性化手机内容推送等等,这些功能将有效提升教与学的效率和质量
首先,我们对高等教育大数据技术平台有一个总体的顶层设计,如图1所示。这不仅是学校自己要有一个大数据的管理平台或者是数据中心,而且也是面向区域乃至全国的平台。教育部评估中心正在努力建立国家级高等教育教学质量监控大数据中心,陕西省也是这样考虑的。数据来自高校、教育管理部门以及行业、第三方、企业用人单位等等各方面采集的数据,该数据平台既有大学的业务数据、课程资源,也有政府部门的统计数据,还有学生网上学习的日志数据,用户产生的ugc数据,比如微信、微博、论坛等等的数据,基于大数据平台,开展面向学习者、面向高等教育管理机构、教师、高校等提供服务,并和教育部评估中心、主管部门等
进行数据交换与对接
显然,这样一个大数据平台必须是一个高性能的计算平台,没有这样的基础设施一切无从谈起,所以去年我们学校花了很大的力气做了两件事,一个是把校内二级单位原来小的集群计算进行整合,形成学校统一的高性能云计算平台,既面向校内的科学研究、人才培养提供服务,其实也可以为社会提供合作共建共享模式。目前,我们已建立了一种自我造血机制,四两拨千斤,以这个平台吸引更多的外部资源,努力扩展平台的性能和应用
目前,我校的高性能平台除了应用于材料、航天、能动、信息等大型科学计算之外,还开展了以下三项典型的大数据应用
案例1,陕西省高等教育质量监控与评估大数据应用
图2所示的是陕西省高等教育的整体架构。其数据基础是来自陕西省100多所高校的各种办学状态数据,有将近700个表格,以及陕西省教育厅各个职能部处的各种各样的管理数据,此外还有行业第三方提供的数据,包括招生、就业数据等等,这个平台上我们开展预测预警、查询在线分析、信息发布、统计决策等等,主要是为省级教育管理部门、评估机构、教育管理机构提供各种各样的办学状况的分析、统计、关联分析
建设全省高等教育大数据服务平台,实时采集各高校的办学状态数据,其根本目的是为了汇聚全省各高校的办学状态数据,打破数据孤岛,融合各方数据,实现横向关联比较、纵向历史分析,提供精准服务,支持科学决策
首先,该平台面向省教育厅提供了11项功能,从根本上解决了原来各处室间的数据孤岛的问题,实现了数据融合,横向关联,纵向融通,这个数据和各个高校是实时融通的,为省教育厅领导和职能部处提供了领导仪表盘、各职能处室的专项服务、81张高基表及年报年鉴表格的自动生成、绩效分析、招生就业及办学指标计算、教育评估等功能,从根本上解决了数据碎片化及其治理问题
其次,面向全省高校辅助决策,为高校领导以及校内各个职能部处提供了系列功能,包括办学情况综合分析和在线查询,专业结构分析比较,校级的教学质量监控评测体系,教师管理等等,这些功能非常实用,这是大学实现精细化、规范化、现代化管理的必备基础。以我校为例,我们过去教师的数据可能在人事处、教务处、科研院等学校的职能部门,采取本平台以后,把教师有关的所有数据都进行了融合,打通了所有原来割裂的数据。从去年开始,我们学校的职称评聘,年度考核全部基于这一平台,全部在大数据里,建立健全了基于数据驱动的精准化服务,解决了数据碎片化历史遗留问题,实现了从管理信息化向服务信息化的根本转变
第三,为本科教育教学评估及专业认证提供技术支撑。鉴于本平台能提供比较全面的高校办学状态数据,便于专家在进校之前全面系统地掌握学校办学的情况,找到问题,精准查看验证,提高效率,给高等教育评估提供了重要支持。基于本平台,我们成立了中国西部高等教育评估中心,接受陕西省教育厅指派的省属本科高校的审核评估和专业论证。如果没有这一高等教育大数据平台的支撑,工作量和难度是极其巨大的,甚至难以实现
案例2,mooc中国技术平台
mooc中国成立于20_年1月,到目前为止已经有121所高校加入,理事单位40家,会员单位80家。该平台的宗旨是,做政府想做的,做社会愿意做的,做单一高校做不了的事情。例如,真正解决校际资源共享、学分互认等,开拓远程教育国际化等未来发展的难题。 图3给出了mooc中国的技术框架。其核心是互联网+教育,实现互联网教育从1.0到2.0的升级。基于这一平台,既要开展网络教育业务的国际化,比如我们牵头成立的“丝路大学联盟”,其目的之一是借助mooc中国平台,实现网络教育业务的国际化,通过mooc中国平台,面向“一带一路”国家开展开放教育和技能培训
到目前为止,mooc中国已经有了9911门课程,用户将近600万,其中光it培训的有500多万,学历教育在读
学生50多万
案例3,西安交大教育教学大数据分析挖掘与应用
学校非常重视教育信息化技术融入和应用到教育教学之中,去年一次性建成了80个智能教室,把物联网技术、云计算技术应用于智能教室和教学一线,基于物联网技术实现教室设备的集中管理、智能控制,同时,将互联网技术深度融入到教室的管理当中,除了多媒体的直播录制功能以外,还提供了学生考勤和专家的精准督导,通过云平台来集中管理各个教室,比如说开投影机、关电源、关多媒体设备等等,都可以通过后端的云平台集中管控,真正实现教室管理的数字化、智能化、精细化,提升了教学保障的能力,也大大提高了教室管理的效率。更重要的是,这些教学的过程数据可以全程采集下来,获得数据,有了这些数据,就可以做精准化分析服务,建立西安交大教学质量大数据监测中心 目前,我校的教学大数据主要包括两大部分,一是教师在授课过程中的全程录制的课堂实况,二是学生在学习过程中产生的大量日志数据。基于这个平台,我们可以开展教育教学的大数据关联分析,开展课堂教学质量的综合评价,实现正面激励、负面惩戒、精准督导,实现教学评价从模糊宏观到量化精准、从每学期制到持续常态、从部分随机到全面覆盖、从事后评价到实时动态的根本转变。通过评价激励老师敬畏课堂,评选精品课堂、示范课堂,在全校内进行正面
表彰,另外也作为教学质量评价的重要依据,包括教师的职称晋升,评选最喜爱的老师等等
此外,本系统还为学院领导和管理部门提供了针对性的信息服务与决策支持,以数据说话,量化分析,改变了以前我们的模糊评价,采取多维度、全覆盖、持续化、精细化的过程评价与监控
首先,介绍一下大数据人工智能的基本原理。前段时间,alphago战胜世界围棋冠军这一故事炒得很热。这对我们的教育科研工作者提出了一个重要的课题,到底人工智能会不会战胜人类的智能,将来教师存在的主要价值是否还有必要,863计划正在研究一个项目,到20_年,人工智能软件参加高考得分要超过一本线,这就是说,计算机教出来的机器软件参加高考都能达到一本线以上。这就引起我们的思考,这是一个深层次的方向性问题。当然我们今天不是谈这个问题,而是我们要看看alphago的原理,其核心是价值计算函数,用收益函数来判断围棋下一步该落子到哪里其收益是最大的,其中采用了人工智能深度学习方法。alphago并非天生聪明,其实他的智慧是分三步完成的, 第一步,给alphago输入了3000万个人类围棋高手的棋谱和走法,任何一个人是不可能记住3000万个棋局的,只有人工智能才能记住 第二步,alphago自己和自己对弈,在对弈过程中找到自己的薄弱点,进而改进和完善,这其实和人的学习原理类似
第三步,才是人机对弈,从职业选手到世界围棋冠军,通过这样不断的对弈完善算法,校正学习,使得alphago具有强大的智能计算能力。alphago的难点在哪,其关键在于在一个巨大的落子空间选一个最大的收益点,或者落子点,称之为movepicker,,函数,这个空间很大,有10170次方,在如此庞大的计算空间中选择最优函数,只能依靠高性能计算平台
alphago为我们研究大数据问题提供了思路和启发。我们在研究教育大数据问题中需要着力攻克以下理论与技术难题
第一,大数据造成了严重的认知碎片化问题。比如,大家在百度搜糖尿病会检索出4440万个数据源,谁也看不过来,并且里面还有一大堆真假难辩的数据。所以,碎片化知识的聚合是一个非常基础的难题,高度的碎片化降低了知识的可用性,造成了分布性、动态化、低质化、无序化等典型的问题
一方面是知识的碎片化,另一方面是每个人的兴趣和需求还不一样。所以,资源的碎片化整合以及个性化推荐是今后人工智能中的关键问题。我们的思路是,一方面,我们要
从资源的角度把无序、分散、低质的资源进一步重组以后形成知识点,形成有序的知识地图,另一方面,要对学习过程进行跟踪,实现兴趣、个性、情感等方面的动态分析与挖掘,两者结合起来,建立基于用户兴趣和个性的资源推荐,最后实现个性化精准过滤,通过知识地图面向用户提供导航学习,从而缓碎片化知识的问题。开展这一研究也要建立庞大的基础数据,就像刚才讲的alphago,光靠智能软件肯定不可能那么聪明,需要建立庞大的知识地图、知识图谱,并将其放到了国际开源社区和开放数据平台之上 第二,碎片化知识的聚合问题。其目的是解决“既见树木,又见森林”的问题,破解“学习迷航”、“认知过载”的问题。我们正在承担国家自然科学基金重点项目,研究如何将多源、片面、无序的碎片化知识聚合成符合人类认知的知识森林,找出主题与主题之间的认知关系,最后形成一个知识森林,其中需要解决主题分面树的生成、碎片化知识的装配、知识森林生成、学习路径选择与导航等有关知识地图、知识图谱构建与应用等许多基础性关键技术
第三,学习行为的分析和挖掘技术。网上学习最大的好处我们可以把教师和学生所有的教与学的行为记录下来,讨论、作业、习题、笔记及进度记录下来,有了这些数据,我们可以进行后续分析,开展学习行为的特征识别和规律发现等等,既可以跟踪挖掘某个个体的学习规律,也可以找出一
个群体、一个小组的特征和规律。针对不同的课程,开展课程点击率、学习人群、知识关注点、学习时间等的分析与跟踪,刻画一个学生学习的过程,从时间、空间和课程知识导航的角度,甚至围绕某个知识点,研究学习者的特征、行为、交互等相互之间的关系,为老师深化课程改革、探索以学生为中心的教学设计具有非常重要的意义
教育是全人类、全社会发展的基础性事业,随着互联网+技术全面渗透和深度融入教育教学,不仅产生了大量的课程资源和学习内容,而且还产生了巨量的教育教学管理数据、行为数据、服务数据,蕴藏着巨大的价值,亟需我们开展深入研究,可谓前景广阔,挑战巨大,
,编辑,王晓明,
有关大数据工作和计划及收获九
职责:
1、负责公司的大数据平台的数仓架构、系统架构设计;
2、负责带领团队完成舆情分析相关的挖掘方案设计;
3、负责大数据研发组团队管理;
4、负责带领团队完成舆情平台的方案文档撰写、迭代开发;
5、负责研发规范制定,研究行业前沿技术;
6、参与产品规划及设计讨论。
任职要求:
1、本科五年工作经验及以上,有至少五年的大数据技术实践经验,有nlp或ai相关经验;
2、有很强的架构设计能力和良好的表达能力;
3、有一定的项目管理及团队管理能力;
4、精通hadoop、spark生态圈中的常用组件原理及应用;
6、理解媒体业务,精通数据仓库的规划和设计;
5、精通掌握java或python编程,有性能调优能力;
4、熟悉nlp算法原理及应用;
6、对新生事物或者新技术有浓厚兴趣,学习能力强。
有关大数据工作和计划及收获十
职责:
1. 负责大数据基础和应用平台的整体规划和架构设计,参与需求分析,架构设计,详细设计以及技术选型决策
2. 参与数据挖掘和建模相关核心算法的代码实现
3. 负责大数据算法平台的技术把关,性能调优,控制架构质量,解决项目技术难题;对研发项目和任务需求进行评估和方案设计、拆分任务并指导工程师完成开发
4. 带领团队提供并实现大数据算法平台上各项数据接入、数据挖掘分析及数据可视化的架构设计与能力,支持解决方案实施
5. 负责数据库设计、应用架构设计、核心技术选型等工作
6. 协调解决开发中的技术问题、设计和监控运营指标,保障系统稳定运行
7. 培养,指导有能力的员工,指导工程师进行技术验证实现,核心技术攻关,解决开发过程中的技术难题
任职要求:
1. 熟悉大数据和数据仓库的系统架构设计方法
2. 熟练使用并理解hadoopspark架构及生态。(hadoop,hive,hbase,elasticsearch,kafka,sparkflink等)
3. 熟悉分布式系统架构,有分布式实时、离线和机器学习平台的架构和开发经验,具备海量数据清洗、分析处理及存储的实践经验
4. 熟练使用java,具有大规模分布式系统调优经验
5. 熟悉ai相关算法,熟悉机器学习、深度学习。熟悉ai学习开源框架(tensorflow、pytorch等)者优先;
6. 具备良好的团队合作精神,对工作充满激情。
7. 熟悉fusioninsight平台开发经验者优先