Bài 14: Làm việc với dữ liệu Text (P1) – Python Panda

Trang chủ » Training » Bài 14: Làm việc với dữ liệu Text (P1) – Python Panda
22/02/2022 Training 138 viewed
Trong bài này, ta sẽ thảo luận về Series/Index. Trong các bài tiếp theo, ta sẽ học cách áp dụng các hàm chuỗi này trên DataFrame.
Pandas cung cấp một tập hợp các hàm chuỗi giúp dễ dàng thao tác trên dữ liệu series. Quan trọng nhất, các hàm này bỏ qua (hoặc loại trừ) các giá trị bị thiếu / NaN.
Số thứ tự Hàm và chức năng
1 lower() : chuyển chuỗi String thành chữ thường
2 upper() : chuyển chuỗi String thành chữ in hoa
3 len() : Độ dài chuỗi
4 strip() : Loại bỏ khoảng trắng
5 split(‘ ‘) : Cắt chuỗi
6 cat(sep=’ ‘) : Nối chuỗi
7 get_dummies() : Trả về DataFrame với các giá trị được mã hóa một lần.
8 contains(pattern) : Trả về giá trị Boolean True cho mỗi phần tử nếu chuỗi con chứa trong phần tử, ngược lại False.
 9 replace(a,b) : Thay thế giá trị a và b
10 repeat(value) : Lặp lại từng phần tử với số lần xác định.
11 count(pattern):Trả về số lần xuất hiện của pattern trong mỗi phần tử.
12 startswith(pattern) : Trả về true nếu phần tử trong Chuỗi bắt đầu bằng pattern.
13 endswith(pattern):Trả về true nếu phần tử trong Chuỗi kết thúc bằng pattern.
14 find(pattern) : Trả về vị trí đầu tiên của lần xuất hiện đầu tiên của pattern.
15 findall(pattern) : Trả về danh sách tất cả các lần xuất hiện của pattern.
16 swapcase : Hoán đổi chữ hoa / chữ thường.
17 islower() : Kiểm tra xem tất cả các ký tự trong mỗi chuỗi  có viết thường hay không. Trả về Boolean
18 isupper() : Kiểm tra xem tất cả các ký tự trong mỗi chuỗi có viết hoa hay không. Trả về Boolean.
19 isnumeric() : Kiểm tra xem tất cả các ký tự trong mỗi chuỗi có phải là số hay không. Trả về Boolean.
Tạo series và làm việc với các hàm ở bảng trên :
import pandas as pd
import numpy as np

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])

print s
Kết quả :
0            Tom
1   William Rick
2           John
3        Alber@t
4            NaN
5           1234
6    Steve Smith
dtype: object

lower() :

import pandas as pd
import numpy as np

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])

print s.str.lower()
Kết quả :
0            tom
1   william rick
2           john
3        alber@t
4            NaN
5           1234
6    steve smith
dtype: object

upper()

import pandas as pd
import numpy as np

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])

print s.str.upper()
Kết quả :
0            TOM
1   WILLIAM RICK
2           JOHN
3        ALBER@T
4            NaN
5           1234
6    STEVE SMITH
dtype: object

len()

import pandas as pd
import numpy as np

s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveSmith'])
print s.str.len()
Kết quả :
0    3.0
1   12.0
2    4.0
3    7.0
4    NaN
5    4.0
6   10.0
dtype: float64

strip()

import pandas as pd
import numpy as np
s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t'])
print s
print ("After Stripping:")
print s.str.strip()
Kết quả :
0            Tom
1   William Rick
2           John
3        Alber@t
dtype: object

After Stripping:
0            Tom
1   William Rick
2           John
3        Alber@t
dtype: object
Chia sẻ:
Tags:
TOP HOME