
Closed
Posted
Paid on delivery
Trabajo con archivos .txt que pesan entre 1 GB y 10 GB y necesito acelerar su descarga y análisis en Apache Spark; después, esos datos se consultarán desde mis procesos de Spring Batch. Busco a alguien que revise mi flujo actual, identifique cuellos de botella y proponga mejoras (particionamiento, paralelismo, tuning de cluster, uso de cachés, compresión, etc.). La tarea incluye implementar un job de Spark que lea los textos, realice un análisis de datos básico (conteos, filtros, validaciones sencillas) y deje el resultado preparado para que Spring Batch lo consuma sin cambios adicionales. Al finalizar espero: • Código y scripts listos para producción (Scala o PySpark, lo que domines). • Guía breve de configuración y buenas prácticas aplicadas. • Prueba de rendimiento antes vs. después que muestre la optimización lograda. Si ya has afinado lecturas masivas de TXT en Spark y conoces cómo integrarlo con Spring Batch, cuéntame tu enfoque y tiempo estimado.
Project ID: 40383978
13 proposals
Remote project
Active 27 days ago
Set your budget and timeframe
Get paid for your work
Outline your proposal
It's free to sign up and bid on jobs
13 freelancers are bidding on average $150 USD for this job

Hi, I can optimize your Spark pipeline for large TXT files (1–10GB) and ensure smooth integration with Spring Batch. I’ll review your current workflow, remove bottlenecks, and implement improvements like efficient partitioning, parallel reads, caching, and cluster tuning. I’ll also build a production-ready Spark job (Scala/PySpark) that performs validations and outputs clean, ready-to-consume data for Spring Batch. You’ll get optimized code, a configuration guide, and before/after performance benchmarks. Timeline: 2–3 days depending on environment access. Ready to get started.
$220 USD in 3 days
3.6
3.6

Hi there, THE CHALLENGE is optimizing the download and analysis process of large .txt files (ranging from 1 GB to 10 GB) in Apache Spark for seamless integration with Spring Batch processes. The project requires identifying and addressing potential bottlenecks in the current flow, implementing improvements such as partitioning, parallelism, cluster tuning, cache utilization, compression, etc. The task also entails developing a Spark job to read the texts, perform basic data analysis (counts, filters, simple validations), and prepare the results for consumption by Spring Batch without additional modifications. In handling this project, I would conduct a thorough analysis of the existing workflow, prioritize enhancements based on impact, and implement efficient solutions tailored to your specific requirements. By leveraging my expertise in Scala/PySpark and experience in optimizing Spark for large-scale data processing, I aim to deliver production-ready code, comprehensive documentation on configuration and best practices, and performance comparison metrics showcasing the achieved optimization. Regards, Matheus
$30 USD in 7 days
0.0
0.0

Hola, He revisado tu necesidad de acelerar descargas y análisis de archivos .txt de 1-10 GB para que Spring Batch pueda consumirlos sin cambios. Tengo amplia experiencia afinando lecturas masivas en Spark y diseñando integraciones limpias con Spring Boot/Batch: optimización de particionado, paralelismo, caching, compresión y ajustes de cluster; además de refactorización y tuning de capas backend. Propongo auditar tu flujo actual, identificar cuellos de botella y entregar un job en PySpark (o Scala si prefieres) que haga lectura optimizada, conteos, filtros y validaciones, y deje resultados listos para Spring Batch. Entregaré código listo para producción, scripts de despliegue, guía breve de configuración y un benchmark antes/después. Como siguiente paso propongo una revisión inicial de logs y configuración para entender el cluster y I/O y luego ejecutar la prueba de línea base. ¿Puedes compartir el formato exacto de los .txt (delimitador, columnas previstas) y especificar si usas HDFS, S3 o almacenamiento local para que calcule ajustes de particionado y paralelismo? Sinceramente, Everett
$200 USD in 3 days
0.0
0.0

Hola, Tengo 9 años de experiencia en (Apache Spark, PySpark, Scala, procesamiento paralelo, análisis de datos, Spring Batch y optimización de pipelines de alto volumen). Para este proyecto, voy a revisar tu flujo actual de lectura y análisis de archivos TXT masivos, detectar los cuellos de botella reales y aplicar mejoras en particionamiento, paralelismo, compresión y tuning de ejecución para dejar un job de Spark listo para producción que entregue la salida en un formato estable para que Spring Batch la consuma sin cambios adicionales. Tengo experiencia práctica afinando cargas masivas en Spark y conectando este tipo de procesos con entornos Java/Spring donde el rendimiento y la consistencia del resultado son clave. Puedes esperar comunicación clara, respuesta rápida y un resultado de alta calidad. Saludos, Juan
$140 USD in 1 day
0.0
0.0

Hi. You need to speed up reading and processing 1–10 GB TXT files in Apache Spark, then feed the results into Spring Batch. I've studied Spark partitioning, caching, compression, and cluster tuning on personal big‑data projects. I use [Apache Spark], [PySpark/Scala], [Spring Batch], and [performance tuning] . I'm new on this platform (only 1 completed job) but I have a 5‑star review. I can prove my skills with a small paid test. Offer: Let me first analyze one of your sample TXT files (1–2 GB) on a small cluster – $40. I'll identify bottlenecks (partitions, skew, I/O) and provide a written optimization plan. If the plan makes sense, I implement the full Spark job, tune the cluster, and integrate with your Spring Batch. Quick question: Can you share a sample file or its schema (delimiter, structure)? I can start today. Here's the 1‑day plan for the test: 1‑Day Plan: Receive a sample TXT file and its schema Run the current Spark job (if available) or a baseline read operation Profile using Spark UI: task duration, shuffle, GC, data locality Propose specific optimizations (partition size, compression, caching, file format conversion if allowed) Deliver a short report with before/after metrics on a small dataset Thanks.
$80 USD in 7 days
0.0
0.0

As an experienced data scientist and full-stack engineer, I am confident in my ability to optimize your Apache Spark processes to accelerate the download and analysis of your 1 GB to 10 GB .txt files. Having worked extensively with Apache Spark, I am well-versed in its tuning and performance optimizations that will effectively address any bottlenecks we encounter in your current flow. I particularly enjoy the challenge of improving system efficiencies through techniques such as partitioning, caching, compression, and more. In relation to Spring Batch integration, I am highly familiar with it and have successfully integrated it into data processing systems for previous clients who required similar functionalities. My proficiency in both Python and Scala ensures that regardless of your language preference, I can deliver production-ready code that meets your needs. Additionally, my experience in design and implementation of AWS-based architectures means I can also provide guidance on configuration and best practices that align with your data requirements.
$100 USD in 3 days
0.0
0.0

Hola, como vas? Yo podría ayudarte, si bien todo my background es de cybersecurity, tengo conocimientos para poder trabajar en tu proyecto. La idea es entender todo el flow, tenes un mapa o diagrama? es posible tner acceso a algunos archivos aunque sea test? tenes algun script para montar la infra que tenes vos y replciar el problema?
$140 USD in 7 days
0.0
0.0

Hola, un gusto saludarte. Te habla Matías, desde Córdoba, Argentina. Me interesa tu proyecto ya que soy científico de datos freelance con experiencia en procesamiento de grandes volúmenes de datos, optimización de pipelines y análisis con herramientas como Python, SQL y entornos distribuidos. Puedo ayudarte a revisar y optimizar tu flujo actual en Apache Spark, identificando cuellos de botella en la lectura de archivos .txt de gran tamaño y mejorando el rendimiento mediante estrategias como particionamiento eficiente, paralelismo, uso de caché, compresión y tuning del cluster. También puedo desarrollar el job en PySpark o Scala que procese los datos (conteos, filtros, validaciones) y deje la salida lista para ser consumida directamente por tus procesos en Spring Batch. Me gustaría coordinar una reunión para revisar tu arquitectura actual, entender cómo estás manejando la ingesta y procesamiento de los archivos, y definir un enfoque óptimo tanto a nivel de Spark como de integración con Spring Batch. Saludos, Matías.
$140 USD in 7 days
0.0
0.0

Tu problema es muy claro: I/O + parsing pesado en TXT grandes + consumo posterior en Spring Batch, y ahí es donde Spark suele rendir mal si no está bien optimizado desde el inicio. He trabajado optimizando pipelines similares (archivos multi-GB + procesamiento distribuido), así que te propongo un enfoque práctico y orientado a resultados:
$90 USD in 2 days
0.0
0.0

Naucalpan de Juárez, Mexico
Payment method verified
Member since May 17, 2014
$30-250 USD
$30-250 USD
₹750-1250 INR / hour
₹1500-12500 INR
₹600-1500 INR
$10-30 USD
₹1500-12500 INR
₹1500-12500 INR
$5-30 USD / hour
$15-25 USD / hour
$250-750 USD
₹1500-12500 INR
$15-25 USD / hour
₹37500-75000 INR
₹1500-12500 INR
$250-750 USD
₹600-1500 INR
₹1500-12500 INR
₹750-1250 INR / hour
₹37500-75000 INR
₹600-1500 INR
$10-30 USD