Home > Blogs > VMware vFabric Blog


How VMware vFabric GemFire reduced a data-intensive batch job’s processing time from 15 HOURS to 19 MINUTES

The problem:

    A great majority of data-intensive jobs run on databases, powered by either high-end  servers (sometimes even mainframes). From a traditional data processing perspective, all the data is kept on a single database instance or even on multiple instances, but all sharing the same data. (share-everything, no data partitioning).

 

Share-everything

 

 This approach was still valid for a couple of years, and the legacy is there to prove it. However, with the data explosion brought by the last decade and specially on the last few years, most of those jobs are not currently satisfying their goals. Due to relational model, this huge growth on data usually brings exponential increases on processing time of those jobs, specially those ones who have to iterate or search through all the data available. The jobs which handled around 1 million records a few years ago nowadays are handling dozens of millions of the same records and the processing times jumped from minutes or few hours to many hours and even days.

    This problem is specially recurrent on some industries as follows:
    – Finance Institutions – where risk management, trading positioning, cash flow and other important jobs run overnight.
    – Telco and other service providers – running billing batch jobs.
    – CRM systems for any industry – demanding consolidation of customer bases with external systems
 

    The cost on the delay of those executing jobs is very variable, however always having an important impact most enterprises can't handle. This impact can come from either delays on opening your bank branches in the morning up to being able to handle less days on your billing cycle (and so impacting cash flow).

     As traditional databases only scale well vertically, the database vendor's approaches are to scale the hardware vertically, moving the DB machine to a larger server – of course extremely expensive. Because of that I've seen customers buying machines with up to 2 terabytes and dozens of CPUs only to run their business critical batches faster.

 

So, what's the alternative?

    To handle big data processing we need another approach. Shared-everything model is clearly limited on scalability and need to handle distributed locks to be able to keep the multiple servers synchronized on inserts and updates.

     Instead of that, GemFire suggests the strategy of data partitioning, where data is divided into the different servers which compose a GemFire Distributed System. Of course this strategy is combined with replication for maximum availability. The idea is data records are divided between GemFire servers on a way each server can now run its data functions independently based only on the data which is currently hosted on it.

     So, as an example if we take a batch job which would iterate over 100 millions of records, we could partition this data on 10 nodes and each one would handle only 10 millions. Of course, adding another 10 nodes would automatically re-partition the data so each node would handle 5 millions records and so on. On a batch processing, function can be distributed among all the members, such as each server only processes those records which are available for it. Like that, we scale not only on having multiple processors working in parallel, but also on dividing the big data on smaller chunks of records and having each server to process a much smaller set of data.
     However, this becomes even more interesting if we knew each of those servers can be standard commodity x86 machines, usually multiple times cheaper together than a single instance of the big machines used to host enterprise databases. This way, we scale horizontally both saving costs and improving performance at the same time, while guarantee linear scaling.

The proof of concept

    The proof of concept was conducted on a potential customer – big healthcare company from Latin America – handling millions of customers and seeing its data increasing about 30% per year.  Due to business model, legal affairs and regulatory / compliance needs, they should be able to run a customer reconciliation process as frequent as possible in order to avoid fraud and unnecessary payments.

     This process which few years ago took few hours to complete is nowadays taking from 10-15 hours due to huge increase of data on recent years. All the possible tuning was done on both RDBMS and data structure, but the results didn't change much and customer is currently only capable of running this process twice a month due to other batches which uses the same database.

     At the moment we came into this opportunity for the GemFire PoC, customer was aiming to grow vertically his database machine once more to a multi-million server and of course pay much more licenses of his database management system, since it's licensed by CPUs.

     GemFire proof of concept goals on 5 working days were:
     – Migrate current batch Job from PL-SQL to Java, acessing GemFire API.
     – Show impressive gains of performance on commodity x86 servers, running production data
     – Prove horizontal linear scalability, showing performance gains while more servers were add to the environment.
     – Prove high availability of the solution.

The solution environment

      The batch job which had around 700 lines of PL-SQL core was migrated to Java on a 16-hour work effort. Partitioning and replication strategies were defined to best leverage GemFire benefits while keeping high availability of the solution.

       The solution was deployed using 16 x  2 vCPU (Xeon 3.07 GHz) 8 Gb RAM server, allocated on a stepped approach to show scalability.  As we were using production data, results taken were compared with the ones from production system to make sure there were no mistakes on the implementation.

 

Results

       The GemFire distributed function (the migrated batch) was executed against 6, 8, 12 and 16 servers from the same configuration above and results were taken as follow:

    6 server nodes – 128 minutes.

    8 server nodes – 61 minutes, or  ~50% better than with 6 nodes (as we added 2 nodes or 33% capacity)
    12 server nodes – 29 minutes, or ~ 50% better than with 8 nodes (as we added 4 nodes, or 50% capacity)
    16 server nodes – 19 minutes, or ~ 30% better than with 12 nodes (as we added 4 nodes or ~ 30% capacity)
   
    Those impressive results really showed both extreme high performance with linear horizontal scalability and also high availability, as each server had two copies of its data on other members of the cluster and the many tests we conducted taking few members down didn't affect the results or forced a rollback in any case.
     For customer this really means he can now execute those jobs on a much less expensive environment and on few minutes, which would enable them to do it more frequently and increase business income.
   
Conclusion

    GemFire can be used as a Data Fabric and Data Grid solution to migrate big data processing functions (as batch jobs running on either database or mainframe programs) while reducing a lot the processing time and saving resources both on hardware and database licenses.
    The impact on modifying source code is usually extremely small compared to the money most companies are losing due to their ineficient data handling processes and payed on the next following weeks of the project implementation. 

   As you might know, this is only one of the various use cases for GemFire Data Fabric. The extreme low-latency and high-throughput case were mentioned on previous posts. 

 

797 thoughts on “How VMware vFabric GemFire reduced a data-intensive batch job’s processing time from 15 HOURS to 19 MINUTES

  1. Bayard Denichaud

    Hi, I am interested to know how many data bases are referred to in this example, as well as the size of the db’s.
    Thank you
    Bayard

    Reply
  2. Guest

    Those GemFire servers in physical or virtual servers? I’m not sure if GemFire can handle huge amounts of data (more than 100 GB) in virtualized servers. Could you explain this?

    Reply
  3. قانون جذب

    قانون جذب چیست؟

    اگر به دنبال یک پاسخ صریح و کوتاه برای این سوال هستید، شاید جمله هنری فورد با اندکی تغییر، جواب مناسبی باشد:

    “فرقی نمی کند که فکر کنید بدبختی نصیبتان می شود یا خوشبختی، چون در هر دو صورت حق با شماست”

    Reply
  4. قانون جذب

    گروه مهندسی کدمدلز آمادگی دارد تا تجربه های ارزشمند خود در زمینه های پروژه صنعتی solidworks در اختیار صنایع بگزارد.

    Reply
  5. طراحی وب سایت

    طراحی انواع وب سایت شرکتی ، طراحی سایت فروشگاهی ، طراحی وب سایت رزرواسیون ، طراحی سایت پزشکان ، طراحی وب سایت خبری ، طراحی سایت سرگرمی ، ساخت پرتال و شبکه اجتماعی ، ساخت سایت شخصی و . . .

    Reply
  6. پارکت

    کاغذ دیواری

    کفپوش پی وی سی

    پارکت لمینت

    مداح در اصفهان

    خرما

    خرید خرما

    فروش خرما

    صادرات خرما

    خواص خرما

    خرما زاهدی

    صادرات خرمای پیارم

    خرمای لولو

    صادرات خرمای مضافتی بم

    خرمای لولو

    آسیاب پلاستیک

    لاستیک سازی

    پیش بند آشپزخانه

    سنگ گرانیت

    سنگ تراورتن

    طراحی سایت

    سیخ گیر کباب

    دستگاه سیخ شور

    کباب سیخ کن

    دستگاه سیب زمینی پوست کن

    سقف کاذب pvc

    نوشته شده توسط مظاهری | نظرات دیگران [بدون نظر]

    صادرات خرما
    پنج شنبه 95 مرداد 21 , ساعت 11:19 عصر

    آتیه ارگ آتبین بزرگترین و پیشرفته ترین کمپانی در زمینه ی صادرات خرما به کشور های اروپایی و آسیایی می باشد که در سال حدود 21500 تُن صادرات خرمای مضافتی بم به کشور های اروپایی با برند گیلدا دارد

    نوشته شده توسط مظاهری | نظرات دیگران [2 نظر]

    خرما صادراتی
    پنج شنبه 95 مرداد 21 , ساعت 1:22 صبح
    خرما صادراتی

    خرما صادراتیشرکت آتیه ارگ آتبین بزرگترین و پیشرفته ترین کمپانی در زمینه ی صادرات خرما به کشور های اروپایی و آسیایی می باشد که در سال حدود 21500 تُن صادرات خرمای مضافتی بم به کشور های اروپایی با برند گیلدا را دارد .

    عمده ترین محصولات گیلدا : خرما خاصویی خرما ربی خرما پیارم چیپس خرما خرما مضافتی بم خرمای لولو خرمای زاهدی خرمای کبکاب شکلات خرما. قند خرما. خمیر خرما

    همچنین این شرکت محصولات خود را با بسته بندی های زیبا و بهداشتی به مصرف کننده و صادرکنندگان خرما عرضه میکند.

    Reply
  7. چوب ابزار (دریل ماکیتا)

    دریل های ماکیتا به دلیل تنوع و دوام بسیار بالا در بازار ایران یکی از پر کار برد ترین دریل هاست. دریل های برقی ماکیتا به سه بخش اصلی تقسیم می شوند : یک دریل های ساده ، دو دریل های چکشی دار ، سه دریل های بتن کن

    دریل های ساده : بشتر برای سوراخ کاری در چوب و MDF کار برد دارد همچنین در بستن برخی پیچ ها با سرعت بالا استفاده می شود. از این دریل ها در سایز های 13 برای سوراخ کاری در فلزات نیز استفاده می شود بطور مثال دریل 6301 ماکیتا با بدنه تمام آلومینیمی مناسب برای سوراخ کاری دستی و استفاده در پایه دریل است

    دریل های چکشی: این دریل ها هم برای سوراخ کاری در چوب و هم برای سوراخ کاری در بتن مناسب است سرعت برخی از دریل ها توسط دیمر کنترل شده و در تمونه های hp2070 علاوه بردیمر دارای گیر بکس آلومینیمی دو دور می باشند که این امر باعث طول عمر بسیار بالا در سوراخ کاری های صنعتی می شود

    دریل های بتن کن: این دریل ها در دو نوع سه کاره و چکش تخریبی عرضه شده که مدل بسیار مشهور آن HP2470 می باشد. دریل های سه کاره دارای حالت های چرخش ساده – سوراخ کاری چکشی و تخریب است در حالی که در چکش های تخریب تنها حالت تخریب به کار برده شده است.

    نوع شارژِی دریل های ماکیتا در دو صورت باتری ساده و سری جدید با باتری لیتیوم و طراحی اروگونومیک در به بازار عرضه می شود که در صنعت چوب کار برد فراوانی دارد. دریل های شارژِی دارای گیربکس با کات آف برای بستن پیچ در گشتاور های خاص و قابل کنترل است که کار با آن را برای کاربر راخت می سازد.

    Reply
  8. فروش کارتریج hp

    فروش پرینتر hp

    فروش کارتریج hp

    تعمیر پرینترهای hp در محل

    فروش پرینترهای hp

    فروش کارتریج های hp

    تعمیر پرینتر hp

    تعمیر پرینتر hp در محل

    فروش پرینتر اچ پی

    قیمت پرینتر hp

    نمایندگی رسمی hp

    فروشگاه پرینتر hp

    قیمت کارتریج hp

    تعمیرات انواع چاپگر

    تعمیرات چاپگر در محل

    فروش انواع پرینتر

    فروش پرینتر چند کاره

    فروش پرینتر لیزری

    Reply
  9. لیفتراک

    This is my first time I have visited this site. I found a lot of interesting stuff in your blog.
    From the tons of comments on your articles, I guess I am not the only one! keep up the great

    Reply
  10. طراحی قالب دایکاست

    solid-co.ir
    very nice!!!
    گروه صنعتی سالید فعال ترین شرکت در زمینه ی ساخت قالب پلاستیک.تولید قطعات پلاستیک.ساخت قالب دایکاست.ساخت قالب های صنعتی .ساخت قالب های تزریقی.برش آلومینیم.پانچ ورق.قالب ساز پلاستیک و…می باشد

    Reply
  11. قالب ساز پلاستیک

    قالب ساز پلاستیک
    قالب ساز صنعتی
    ساخت قطعه فلزی
    تولید قطعات صنعتی
    برش آلومینیم
    پانچ ورق
    ساخت قطعه پلاستیکی
    سازنده قالب صنعتی
    قیمت قالب پلاستیک

    Reply
  12. َSoren Wood

    طراحی و ساخت انواع سازه های چوبی فضای باز شاما آلاچیق، پرگولا، فودکورت، فنس، فلاورباکس و…
    با رزومه ای بی نظیر در میان رقبا

    Reply
  13. soheil

    جدید ترین تقویت آنتن موبایل همراه اول ، تقویت کننده 3g میباشد.

    این دستگاه قابلیت ساپورت فرکانس 2100 و مخصوص شبکه مخابراتی رایتل می باشد.

    جدیدا در بعضی مناطق که شبکه 3g فعال شده است این دستگاه تک باند باعث پوشش دهی بسیار عالی همراه اول هم می باشد.

    دستگاه تک باند 3g از قدرت بالایی برای تقویت آنتن موبایل می باشد و همچنین محدود 2000 مترمربع را به خوبی تحت پوشش قرار می دهد.
    http://www.mobileamplifiers.net

    Reply
  14. parsian.ac

    شتاب‌دهنده کسب‌وکار پارسیان، مجموعه ای از نیروهای زبده و متخصص در حوزه‌های مختلف مدیریت، بازاریابی و فناوری اطلاعات است که کسب‌وکارهای سنتی را برای ظهور و درخششی دوباره در فضای کسب‌وکار مجازی یاری میرساند.

    تیم‌های مختلف شتاب‌دهنده کسب‌وکار پارسیان عبارت‌اند از:

    تیم توسعه راهکارهای دیجیتال مارکتینگ و شبکه‌های اجتماعی
    تیم مشاوره و توسعه راه‌کارهای مهندسی مالی
    تیم طراحی و توسعه اپلیکیشن‌های موبایل Android و iOS
    تیم طراحی و توسعه نرم افزار سمت سرور (Backend Development)
    تیم ارائه خدمات ارزش افزوده 2G و 3G تلفن همراه

    Reply
  15. چاپگر سه بعدی

    I think you did it better than

    پرینتر سه بعدی
    پرینت سه بعدی
    چاپگر سه بعدی
    فروش پرینتر سه بعدی
    خدمات پرینت سه بعدی
    فروش چاپگر سه بعدی
    پرینترهای سه بعدی
    چاپگرهای سه بعدی

    Reply
  16. hacshop95

    شرکت هاله افزار نمایندگی نرم افزار هلو از با بکارگیری كارشناسانی مجرب و مسلط به کلیه نرم افزار های تولیدی گروه نرم افزارهای هلو همواره آماده خدمت به مشتریان گرامی می باشد.
    نرم افزار هلو دارای نسخه های تخصصی برای فروشگاه ها، شرکت ها و تولیدی ها با پوشش بیش از 200 گروه شغلی می باشد.

    برخی از خدمات این شرکت عبارتند از :

    1) مشاوره و راهنمایی تلفنی : مشتریان جهت خرید نرم افزار متناسب با نیازهای خود می توانند به صورت تلفنی توسط مهندسان فروش مشاوره دریافت نمایند .

    2) مشاوره و راهنمایی حضوری (دمو) : جهت دریافت مشاوره حضوری در خصوص نرم افزار ، مشتریان می توانند با تعیین وقت قبلی و با حضور در محل شرکت با کارایی نرم افزار از نزدیک آشنا شوند. کارشناسان این واحد، طی جلسات مذاکره با متقاضیان، نیاز سازمان یا شرکت آنها به هر یک از نرم افزارها را تشخیص داده و آنگاه نرم افزار مناسب را به آنان عرضه می کنند.

    به سایت ما هم سر بزنید…
    فروشگاه اینترنتی هاله افزار نمایندگی نرم افزار حسابداری هلو
    فروش و خدمات نرم افزار هلو،خدمات حسابداری و آموزش حسابداری ویژه بازار کار

    http://www.hac.ir/

    از طریق شماره 38427-021 داخلی 1 جهت مشاوره و تعیین وقت دموی حضوری میتوانید استفاده کنید.

    Reply
  17. Virtual Elementary

    VMware Certified Advanced Professional 6 (Desktop and Mobility Deployment) – The industry-recognized VCAP6-DTM Deploy certification validates that you know how to deploy and optimize VMware Horizon 6 (with View) environments. It demonstrates that you have the knowledge and expertise essential to leverage best practices to provide a scalable and dependable Business Mobility platform for your business. Some of the subjects involve: Configuring and managing Horizon View components, configuring cloud pod archituecture, configuring Group Policy settings related to Horizon View, Configuring and optimizing desktop images for Horizon View & Mirage, Configuring and managing App Volumes AppStacks, Configuring desktop pools, Configuring and deploying ThinApp packaged applications, Configuring VMWare Identity Manager, etc.Szumigalski.com was designed by Sebastian to spread his love for PowerShell & VMWare. Sebastian is an IT qualified professional working in Singapore over fifteen years who is frequently on the lookout for new concept to develop his technical capabilities & know-how. Since then, Sebastian has joined up with PowerShell User Group & VMWare VMug group, and has also been participating all of the gatherings held in Singapore. This website will disclose precisely how Sebastian are able to speed up some of his every day work using PowerShell. You can find study guides obtainable for the VCAP6-DTM exam, which were professionally drafted by Sebastian. Sebastian is licensed with VCAP6-DTM, and is professional with virtualization & server maintenance from four years experience of automation. The call for VMWare prepared admins and engineers are ever-increasing with the current economic tech market. Learn more details on PowerShell & VMWare at Szumigalski.com!

    Reply
  18. بازرسی جوش

    VMware Certified Advanced Professional 6 (Desktop and Mobility Deployment) – The industry-recognized VCAP6-DTM Deploy certification validates that you know how to deploy and optimize VMware Horizon 6 (with View) environments. It demonstrates that you have the knowledge and expertise essential to leverage best practices to provide a scalable and dependable Business Mobility platform for your business. Some of the subjects involve: Configuring and managing Horizon View components, configuring cloud pod archituecture, configuring Group Policy settings related to Horizon View, Configuring and optimizing desktop images for Horizon View & Mirage, Configuring and managing App Volumes AppStacks, Configuring desktop pools, Configuring and deploying ThinApp packaged applications, Configuring VMWare Identity Manager, etc.Szumigalski.com was designed by Sebastian to spread his love for PowerShell & VMWare.

    Reply
  19. قیمت میلگرد

    قیمت میلگرد

    آهنستان مرجع خرید و فروش انواع آهن آلات از جمله انواع میلگرد ( میلگرد ساده – میلگرد آجدار – میلگرد صنعتی و… ) می باشد . در آهنستان قیمت تمامی محصولات و آهن آلات بصورت به روز و آنلاین در اختیار بازدید کنندگان و خریداران محترم قرار خواهد گرفت . در بخش زیرقیمت میلگرد : قیمت میلگرد ساده – قیمت میلگرد آجدارد قیمت میلگرد صنعتی و…. قرار گرفته است . به دلیل تغییرات و نوسانات لحظه ای قیمت میلگرد و سایر آهن آلات بهترین و دقیق ترین راه تماس با آهنستان و گرفتن لیست قیمت لحظه ای می باشد که با در نظر گرفتن تعداد زیاد آهن آلات و تغییرات لحظه ای نمیتوان لیست قیمت میلگرد را به روز رسانی لحظه ای نمود . آهنستان با رویکردی متفاوت در بخش فروش تمامی محصولات و آهن آلات بهترین و سریع ترین و امن ترین راه رسیدن به محصول خود را در اختیار مشتریان خود قرار میدهد.

    Reply
  20. کاشت مو تبریز

    این مرکز با وجود روشهای مختلف کاشت مو از جمله : کاشت مو به روشهای FIT , FUT و همچنین تجهیزات بسیار جدید و مدرن و محیطی کاملا بهداشتی سعی در ارائه بهترین خدمات کاشت مـو در تبریز را دارد. کلینک و درمانگاه کاشت موی حکیمان با پشتوانه وجود پزشکان متخصص و مجرب همچون سرکار خانم دکتر مهین اتابکی و خانم دکتر سولماز معیری و پرسنل کاملا حرفه ای لیستی از خدمات کاشت مو را خدمت همشهریان عزیز تبریز ارائه مینماید. همچنین جهت مشاهده قیمت کاشت مو در تبریز و اطلاع از تخفیف های ویژه مرکز کاشت موی حکیمان به صفحه قیمت کاشت مو مراجعه نمایید:

    Reply
  21. نمایندگی تعمیرات جنرال

    نمایندگی تعمیرات جنرال

    ​نمایندگی تعمیرات جنرال الکتریک به تعمیر محصولات جنرال الکتریک یکی از بهترین تولیدکنندگان کالاهای مورد استفاده در خانه و برندی معتبر برای لوازم خانگی است. نمایندگی تعمیرات جنرال الکتریک در همه جای دنیا معروف و در اکثر کشورها محصولات لوازم خانگی اش را به فروش می رساند. مواد استفاده شده در این برند معتبر جهانی به حدی ممتاز است که هر خریداری با خیالی آسوده اقدام به خرید می کند و خریدار سالیان سال می تواند بدون نگرانی از لوازم این برند در خانه بهترین بهره را ببرد.

    Reply