Kemampuan Yang Mesti Dimiliki Oleh Data Scientist

Data Scientist saat ini sedang naik daun, biasanya tugas dari data scientist ini adalah mengolah data-data yang dimiliki oleh perusahaan kemudian data-data tersebut di analysis dan dijadikan panduan dalam membuat keputusan.

Beberapa pengetahuan basic yang mesti diketahui untuk menjadi seorang data scientist adalah:

Basic Tools:
Mesti paham bahasa-bahasa statistic seperti bahasa R dan python, dan juga mengetahui tentang database query language (SQL)

Basic Statistics:
Karena ini tentang angka dan angka, maka untuk dapat menjadi seorang data scientist kita juga mesti bisa dan paham basic statistik. Yang paling standart gimana cara menghitung rata-rata, rataaan, total, simpangan ataupun juga distribusi.

Machine Learning:
Paham tentang machine learning itu merupakan salah satu point plus. Dari mulai algoritm sampai gimana cara menggunakan-nya.

Multivariable Calculus and Linear Algebra:
Ini sebenarnya jarang menjadi acuan, tapi yang pasti kalo ngomogin statistik dan angka kita tidak akan pernah lepas dengan dunia charting and etc. Karena kita mesti mengetahui bagaimana data tersebut tersebar dan bentuknya.

Data Cleansing dan Data Validation:
Banyak data-data yang tersebar tidak memngikuti aturan baku yang ditetapkan, dari mulai data tanggal yang kadang penulisannya berbeda. Data angka yang tiba-tiba terkotori dengan data character. Kita mesti bisa melakukan cleansinng data dan sejenisnya.

Data Visualization & Communication:
Bagian ini penting. Data-data yang ada hanya akan menjadi sampah bila kita tidak dapat mevisualisasikan dan menkomunikasikannya. Data yang sudah di proses ini lah yang kemudian dapat kita sebut sebagai informasi

Check infographics yang mengambarkan jenis-jenis Data Scientist, serta key roles-nya dan perusahaan apa saja yang menggunakannya.

Installing PostgreSQL and PostGIS di Centos 7

Berikut ini step melakukan installing PostgreSQL dan PostGIS pada centos 7. Kita akan memberikan beberapa type installasi yang bisa dilakukan. Salah satunya menggunakan PostgreSQL 9.5 dan PostgreSQL 9.3.

PostgreSQL 9.5 dan PostGIS

  1. Install RPM yang sesuai dengan kebutuhan http://yum.postgresql.org/repopackages.php, penulis saat ini menggunakan centos 7 sebagai OS
  2. Lakukan instalasi RPM package
    sudo rpm -ivh http://yum.postgresql.org/9.5/redhat/rhel-7-x86_64/pgdg-centos95-9.5-2.noarch.rpm
  3. Lakukan instalasi PostgreSQL, libs, contrib dan devel
    yum install postgresql95 postgresql95-server postgresql95-libs postgresql95-contrib postgresql95-devel
  4. Lakukan setup awalan untuk postgressql
    sudo postgresql-setup initdb
    sudo systemctl start postgresql
    sudo systemctl enable postgresql
    
  5. Lakukan setting user dan password untuk default account postgres
    sudo passwd postgres
    su - postgres
    psql -d template1 -c "ALTER USER postgres WITH PASSWORD 'newpassword';"
    
  6. Lakukan test akses ke postgres
    psql postgres
    
  7. Kita akan login ke dalam PostgresSQL, untuk keluar bisa dilakukan dengan ctrl+z
psql (your version)
Type "help" for help.
postgres=#

Pada step diatas kita sudah selesai untuk melakukan instalasi untuk PostGresSQL, selanjutnya kita akan melakukan instalasi untuk PostGIS. PostGIS ini adalah engine dan extension yang akan kita gunakan untuk melakukan manipulasi spatial data dan membuat database kita support untuk data Spatial dan GIS

  1. PostGIS instalasi dapat dilakukan dengan menggunakan Yum function
    sudo yum install postgis2_95 postgis2_95-client
  2. Bila terdapat permasalah dependency bisa dilakukan update/install  yum ke epel release
    yum -y install epel-release
    sudo yum install postgis2_95
  3. Lakukan instalasi OGR dan pgrouting
    yum install ogr_fdw95
    yum install pgrouting_95
    
  4. Lakukan enable extension untuk database kita
    su postgres
    /usr/pgsql-9.5/bin/psql -p 5432
    CREATE DATABASE gistest;
    \connect gistest;
    CREATE EXTENSION postgis;
    CREATE EXTENSION postgis_topology;
    CREATE EXTENSION ogr_fdw;
    SELECT postgis_full_version(); #lakukan verify instalasi
    

Bila ketika melakukan create extension terdapat error seperti

ERROR: could not open extension control file "/usr/share/pgsql/extension/postgis.control": No such file or directory

maka ada baiknya melakukan instalasi PostGre 9.3.

MariDB : Error: ‘Out of resources when opening file (Errcode: 24 – Too many open files)’

Hari ini komputer client mengalami kegagalan backup dengan error code (Errcode: 24 – Too many open files). Server yang digunakan adalah centos 7 dengan mariadDB.

Setelah dilakukan pengecheckan teryata problem-nya kemampuan mariaDB dalam menghandle jumlah file yang bisa dieksekusi.

Untuk melakukan pengecheckan bisa dilakukan dengan cara:

  1. Login kedalam server mysql/MariaDB dan lakukan command
    show global variables like "%open_files_limit%";
  2. Jika result dari database yang dihasilkan berada pada 1024 atau belum sampai unlimited maka kita harus melakukan peningkatan jumlah ulimit pada server
    [root@li1628-17 ~]# vi /etc/security/limits.conf
    
    mysql soft nofile 65535
    mysql hard nofile 65535
    [root@li1628-17 ~]#reboot
  3. Lakukan edit pada my.etc, pada section [mysqld] tambahkan parameter berikut ini:
    open_files_limit=32768
  4. Buat folder /etc/systemd/system/mariadb.service.d bila belum ada dan tambahkan file limits.conf
    
    [root@li1628-17 ~]# mkdir /etc/systemd/system/mariadb.service.d
    [root@li1628-17 ~]# vi limits.conf
    
    [Service]
    LimitNOFILE=infinity
    LimitMEMLOCK=infinity
    
    
  5. Simpan file tersebut dan lakukan restart pada daemon dan pada mariadb services
    
    [root@li1628-17 ~]# systemctl daemon-reload
    [root@li1628-17 ~]# systemctl restart  mysql.service
    
  6. Lakukan kembali pengecheckan pada mysql dengan command pada line 1
    show global variables like "%open_files_limit%";