Python做特征工程的示例
时间: 2023-11-05 16:16:10 浏览: 164
好的,可以参考下面这些Python代码来做特征工程:
1.统计特征:
```python
# 统计每个样本的特征,比如长度、字数、句子数等等
df['length'] = df['text'].apply(len)
df['num_words'] = df['text'].apply(lambda x: len(x.split()))
df['num_sentences'] = df['text'].apply(lambda x: len(re.findall(r'\.', x)))
```
2.文本清洗:
```python
# 去除特殊字符、停用词等等
import nltk
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
def clean_text(text):
text = text.lower() # 转换为小写
text = re.sub('[^a-zA-Z0-9]', ' ', text) # 去除特殊字符
text = ' '.join([word for word in text.split() if word not in stop_words]) # 去除停用词
return text
df['text_clean'] = df['text'].apply(clean_text)
```
3.词袋模型:
```python
# 将文本转化为词袋模型,统计每个词的频率
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['text_clean'])
```
以上是Python中做特征工程的一些示例,希望对你有所帮助。
阅读全文