当前位置:网站首页>pyspark jieba 集群模型 对文本进行切词
pyspark jieba 集群模型 对文本进行切词
2022-08-09 14:55:00 【yisun123456】
如果是单个机器或者是local模式,简单的方式就是在节点上pip install jieba就完事了。但是在集群上肯定不能安装啊。怎么办呢??
spark可以使用自己的镜像。比如本地有一个conda的envs的环境。可以将这个打包,在提交任务的时候可以分发到各个executor上。
spark-submit \
--name seg_tags \
--queue root.niubi_queue \
--deploy-mode cluster \
--driver-memory 10g \
--executor-memory 10g \
--conf spark.dynamicAllocation.maxExecutors=300\
--conf spark.executor.cores=3\
--conf spark.default.parallelism=2000\
--conf spark.port.maxRetries=200\
--conf spark.yarn.dist.archives=hdfs://dfs4/user/niubi/niubi.tar.gz#mypython \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./mypython/myEnvs/bin/python \
./seg_tags.py
边栏推荐
- How to make your quantitative trading system have probabilistic advantages and positive return expectations?
- 【超级账本开发者系列】专访——肖慧 : 不忘初心,方得始终
- .Net Core后台任务启停(BackgroundService)
- How can I know if quantitative programmatic trading is effective?
- 大数组减小数组常用方法
- 在服务器上远程使用tensorboard
- Sort method (Hill, Quick, Heap)
- NetCore 5.0连接MySql
- 如何选择可靠的亚马逊代运营
- .Net Core 技巧小结
猜你喜欢

ASP.Net Core实战——使用Swagger

贝塞尔函数

NetCore 5.0连接MySql

Use tensorboard remotely on the server

ImageWatch无法显示图像

WebGL:BabylonJS入门——初探:数据展示

Database multi-table link query method

MIUI12.1.5安装google App store,无需ROOT,不闪退

你知道亚马逊代运营的成本是多少吗?

What is a template engine?What are the common template engines?Introduction to common commands of thymeleaf.
随机推荐
名词概念总结(不定期更新~~)
Database multi-table link query method
At the beginning of the C language order 】 【 o least common multiple of three methods
WebGL:BabylonJS入门——初探:注入活力
(精中求精) rem适配布局
几何光学简介
cropperjs裁剪上传头像使用方法
WebGL:BabylonJS入门——初探:数据展示
For programming trading, focusing on forecast or on countermeasures?
How to List < Map> grouping numerical merge sort
编译器不同,模式不同,对结果的影响
ImageWatch无法显示图像
众所周知亚马逊是全球最大的在线电子商务公司。如今,它已成为全球商品种类最多的在线零售商,日活跃买家约为20-25亿。另一方面,也有大大小小的企业,但不是每个人都能赚到刀! 做网店的同学都知道,
对导入的 excel 的时间的处理 将excel表中的时间,转成 标准的时间
ASP.Net Core实战——初识.NetCore
Analysis: Which method is used to build a stock quantitative trading database?
C#轻量级ORM使用 Dapper+Contrib
内存泄露检测工具VLD(Visual Leak Detector)使用说明
PAT1027 打印沙漏
LNK1123:转换到COFF期间失败:文件无效或损坏